ソフトウェアエンジニアリングエージェントにおける環境設定のためのプロセスレベルの軌道評価

Process-Level Trajectory Evaluation for Environment Configuration in Software Engineering Agents

本論文では、ソフトウェアエンジニアリングにおける大規模言語モデルに基づくエージェントの環境設定における課題を解決するため、新しいベンチマーク「Enconda-bench」を提案しています。既存のベンチマークは、エージェントが成功するか失敗するかの最終結果のみを評価し、具体的な失敗原因を明らかにしていません。Enconda-benchでは、環境設定のプランニング、エラー診断、修正アクションを細かく評価し、現実的なREADMEエラーを注入したタスクインスタンスを自動生成します。Dockerを利用して評価のスケーラビリティと品質を確保し、エージェントの内面的な能力をプロセスレベルで評価することが可能です。評価の結果、エージェントはエラーの特定ができても、フィードバックを効果的な修正に結びつけることが難しいことが示されました。この研究は、ソフトウェアエンジニアリングエージェント改善のための具体的な洞察を提供します。