arXiv cs.AI

多言語およびマルチモーダルEコマースアプリケーションのための大規模言語モデルの信頼性のある評価に向けて

Towards Reliable Evaluation of Large Language Models for Multilingual and Multimodal E-Commerce Applications

http://arxiv.org/abs/2510.20632v1


本記事では、大規模言語モデル(LLMs)の多言語およびマルチモーダルEコマース向け評価の信頼性を向上させるための新しい基準「EcomEval」を提案しています。従来の評価方法は、タスクの多様性やモダリティが限られており、英語と中国語に偏っていました。EcomEvalは、実際の顧客クエリや取引ログに基づく37のタスク(うち8つはマルチモーダル)を含む包括的な評価基準を提供します。さらに、50人以上の専門家が候補となる回答をレビューする半自動プロセスを採用し、質問ごとに難易度を設定することにより、さまざまなモデルサイズに対して厳密な評価を実現しています。また、低リソースの東南アジア言語を含む7言語での評価が可能で、従来の研究にはない多言語の視点を提供します。