Live-SWE-agent: ソフトウェア工学エージェントはその場で自己進化できるか？

本稿では、ソフトウェア工学におけるエージェントの自己進化の可能性を探ります。大規模言語モデル（LLM）がソフトウェア問題を解決するために提案されている中、従来のエージェントは設計が必要で最適ではないことが課題とされてきました。これに対し、Live-SWE-agentは、基本的なエージェントの枠組みからスタートし、実世界の問題を解決する過程で自ら進化を遂げることが特徴です。実験では、Live-SWE-agentは75.4%の解決率を記録し、既存のオープンソースエージェントを上回る成果を上げています。さらに、SWE-Bench Proのベンチマークでも45.8%の解決率を達成し、手作りのエージェントを凌駕する結果を示しました。この研究は、ソフトウェアエンジニアリングにおけるエージェントの自律的な進化の新たな可能性を示唆しています。