本研究では、最新の大規模言語モデル(LLM)が、証明ベースのオリンピック問題において大幅な進展を遂げ、2025年国際数学オリンピック(IMO)の問題のほとんどを解決できることを示しています。特に、モデルの証明分析能力を評価するため、90の生成ソリューションのエラー検知やスコアリングの妥当性について研究を行い、教師による評価との一致度を向上させる新しいエージェントワークフローを導入しました。このアプローチにより、部分的なクレジットの扱いにおいて一貫性を持たせられ、高い評価一致率を達成しました。研究データやコードも公開しています。