この記事では、大規模言語モデル(LLM)の能力を、カウンティレベルのローカル知識に基づいて評価するための新しいベンチマーク「LocalBench」を提案しています。従来のLLMは地域的なタスクにおいて評価されていましたが、特に地域特有の知識を扱う能力はまだ十分に理解されていません。LocalBenchは、アメリカの526のカウンティから取得した14,782の質問と回答のペアを含み、地理的および文化的文脈における地方の複雑性を捉えています。評価の結果、13の最先端LLMのモデルが、物語スタイルの質問に対して56.8%の精度に達する一方で、数値推論に対しては15.5%を下回るという限界が明らかになりました。また、モデルのサイズやウェブの補強が必ずしも性能向上に繋がるわけではないことも示されています。これらの結果は、地域に配慮した公平なAIシステムの重要性を浮き彫りにしています。