InnovatorBenchは、AIエージェントが科学的発見を加速するために、仮説形成、実験設計、コーディング、実行、分析を自動化する能力を評価する新たなベンチマークです。このプラットフォームは、データ構築、フィルタリング、増強、損失設計、報酬設計、スカフォールド構築を含む20のタスクから成り立っており、これにより実行可能なアーティファクトとその正確性、パフォーマンス、出力品質、そして不確実性の評価が行われます。研究環境「ResearchGym」は、豊富なアクションスペースと分散型、長期的な実行が可能で、非同期でのモニタリングとスナップショット保存を提供します。試験結果では、最先端モデルがコーディング主導の研究タスクにおいて一定の能力を示す一方で、アルゴリズム関連のタスクや長期的な意思決定に課題があり、エージェントは最良のパフォーマンスを達成するのに11時間以上を要します。このことから、InnovatorBenchが次世代のコーディングベースの研究ベンチマークとなる可能性を示しています。