AraLingBench: アラビア語の言語能力評価のための人間注釈付きベンチマーク

AraLingBench A Human-Annotated Benchmark for Evaluating Arabic Linguistic Capabilities of Large Language Models

AraLingBenchは、大規模言語モデル(LLMs)のアラビア語の言語能力を評価するための完全に人間注釈されたベンチマークです。このベンチマークは、文法、形態論、スペリング、読解力、構文の5つの主要カテゴリをカバーし、150問の専門家設計の選択式問題を用いて構造的な言語理解を直接評価します。35のアラビア語およびバイリンガルのLLMsを評価した結果、現在のモデルは表面的な能力は強いものの、より深い文法的および構文的な推論には苦しんでいることが明らかになりました。AraLingBenchは、知識ベースのベンチマークで高スコアを取得しても、真の言語習得にはギャップが存在することを示しており、多くのモデルが真正な理解ではなく、記憶やパターン認識によって成功していることを浮き彫りにしています。このベンチマークは、アラビア語LLMsの開発のための診断フレームワークを提供します。