この記事では、AMO-Benchという新しい数学的推論ベンチマークを紹介しています。これは、国際数学オリンピック(IMO)レベルの難易度を持つ50の人間が作成した問題から成り立っています。これまでの数学コンペティションは、大規模言語モデル(LLMs)の数学的推論能力を評価する際に限界があったため、AMO-Benchは専門家によって検証された厳密な問題を提供します。実験結果によると、最高のパフォーマンスを持つモデルでもAMO-Benchでの正答率は52.4%に過ぎず、ほとんどのモデルは40%未満でした。この結果は、現在のLLMsにおける数学的推論の改善の余地が大きいことを示しています。AMO-Benchは、言語モデルの推論能力向上のためのさらなる研究を促進するために公開されています。