この記事では、AIエージェントが未来の出来事を予測する能力を評価する新しいベンチマーク「FutureBench」が提案されています。従来のAI評価は過去のデータに基づいていますが、より価値のあるAIは未来を予測する能力にあると主張されています。未来予測は複雑で全体的なタスクであり、単なるパターンマッチングを超えた洗練された推理や合成能力を必要とします。FutureBenchでは、実際の予測市場やニュースから取り入れたシナリオを使用し、情報を組み合わせて推論することが求められます。この方法はデータ汚染を防ぎ、モデルの性能を検証可能にし、AIエージェントが未来の出来事を予測できるのかという問いに挑戦します。最終的には、予測の正確性を時間で検証できるため、AIモデルの価値を明らかにする手法となります。