この記事では、アラビア語の文化的な質問応答(QA)のベンチマークを提案しており、特に方言のバリエーションに焦点を当てています。大規模言語モデル(LLM)が日常の質問に答えるために広く使用されている一方で、文化的に根付いた内容や方言に関する性能が言語によって不均一であることが明らかになりました。本研究では、モダン・スタンダード・アラビア語(MSA)の選択問題を英語や複数のアラビア方言に翻訳し、オープンエンドの質問形式に変換する方法を提案します。さらに、MCQおよびOEQの設定下でのLLMの性能を評価し、推論のための思考の連鎖(CoT)を生成します。実験の結果、アラビア方言における知識のギャップや、アラビア中心のモデルの性能の違いが浮き彫りになりました。公にされるデータセットは、文化的および言語的に包括的な評価の研究を支援するために重要です。