AMO-Bench: 大規模言語モデルは依然として高校数学コンペティションで苦戦している

AMO-Bench: Large Language Models Still Struggle in High School Math Competitions

この記事では、AMO-Benchという新しい数学的推論ベンチマークを紹介しています。これは、国際数学オリンピック（IMO）レベルの難易度を持つ50の人間が作成した問題から成り立っています。これまでの数学コンペティションは、大規模言語モデル（LLMs）の数学的推論能力を評価する際に限界があったため、AMO-Benchは専門家によって検証された厳密な問題を提供します。実験結果によると、最高のパフォーマンスを持つモデルでもAMO-Benchでの正答率は52.4%に過ぎず、ほとんどのモデルは40%未満でした。この結果は、現在のLLMsにおける数学的推論の改善の余地が大きいことを示しています。AMO-Benchは、言語モデルの推論能力向上のためのさらなる研究を促進するために公開されています。