InnovatorBench: エージェントの革新的なLLM研究を行う能力の評価

本記事では、InnovatorBenchという新たな評価基準を導入し、AIエージェントがどのように大型言語モデル（LLM）研究を行う能力を評価するかを説明しています。既存の基準では、AIのスキルの一部にしか焦点が当てられていなかったため、20種類のタスクを含むInnovatorBenchは、データ構築、フィルタリング、強化学習、損失設計などの幅広い研究プロセスを対象としています。これにより、AIエージェントは複雑な問題に対処する能力が試されます。また、ResearchGymという研究環境も開発され、エージェントが多様な行動を取れるよう支援しています。実験結果から、最先端モデルは特定の研究タスクでは有望ですが、長期的な意思決定や資源管理においては課題があることが示されました。このように、InnovatorBenchは次世代のコードベース研究の評価基準としての期待が寄せられています。