本記事では、大規模言語モデル(LLMs)の多言語およびマルチモーダルEコマース向け評価の信頼性を向上させるための新しい基準「EcomEval」を提案しています。従来の評価方法は、タスクの多様性やモダリティが限られており、英語と中国語に偏っていました。EcomEvalは、実際の顧客クエリや取引ログに基づく37のタスク(うち8つはマルチモーダル)を含む包括的な評価基準を提供します。さらに、50人以上の専門家が候補となる回答をレビューする半自動プロセスを採用し、質問ごとに難易度を設定することにより、さまざまなモデルサイズに対して厳密な評価を実現しています。また、低リソースの東南アジア言語を含む7言語での評価が可能で、従来の研究にはない多言語の視点を提供します。