方言アラビア語MMLU: アラビア語および多言語モデルにおける方言的能力のベンチマーク

DialectalArabicMMLU: Benchmarking Dialectal Capabilities in Arabic and Multilingual Language Models

本論文では、方言アラビア語MMLUという新しいベンチマークを提案し、アラビア語の方言における大規模言語モデル（LLM）の性能を評価します。近年開発されたアラビア語および多言語のベンチマークは、主に現代標準アラビア語（MSA）の評価に焦点を当てていますが、日常会話における方言的な多様性は十分に評価されていません。方言アラビア語MMLUは、シリア、エジプト、エミレーツ、サウジ、モロッコの主要な五つの方言において、3000の選択肢付き質問とその回答ペアを手動で翻訳・適応し、合計15,000のQAペアを生成しています。19のオープンウエイトのアラビア語および多言語LLMを評価した結果、方言による性能のばらつきが顕著で、方言的な一般化に関するギャップが明らかになりました。このベンチマークは、アラビア語における方言理解を測定するための統一されたリソースを提供し、将来のモデル開発を促進します。