多言語およびマルチモーダルEコマースアプリケーションのための大規模言語モデルの信頼性のある評価に向けて

Towards Reliable Evaluation of Large Language Models for Multilingual and Multimodal E-Commerce Applications

本記事では、大規模言語モデル（LLMs）の多言語およびマルチモーダルEコマース向け評価の信頼性を向上させるための新しい基準「EcomEval」を提案しています。従来の評価方法は、タスクの多様性やモダリティが限られており、英語と中国語に偏っていました。EcomEvalは、実際の顧客クエリや取引ログに基づく37のタスク（うち8つはマルチモーダル）を含む包括的な評価基準を提供します。さらに、50人以上の専門家が候補となる回答をレビューする半自動プロセスを採用し、質問ごとに難易度を設定することにより、さまざまなモデルサイズに対して厳密な評価を実現しています。また、低リソースの東南アジア言語を含む7言語での評価が可能で、従来の研究にはない多言語の視点を提供します。