E2Edev：エンドツーエンドのソフトウェア開発タスクにおける大規模言語モデルのベンチマーク

E2Edev: Benchmarking Large Language Models in End-to-End Software Development Task

本記事は、E2Edevというフレームワークを用いてエンドツーエンドのソフトウェア開発タスクにおける大規模言語モデル（LLM）の性能を評価する研究を紹介しています。E2Edevは、詳細なユーザー要件セット、各要件に対応する複数のBDDテストシナリオ、およびBehaveフレームワークに基づいた完全自動テストパイプラインから構成されています。評価においては、我々が提案したヒューマン・イン・ザ・ループ・マルチエージェント注釈フレームワーク（HITL-MAA）を活用し、品質を確保しつつ注釈作業の負担を軽減しています。様々なE2ESDフレームワークとLLMの分析から、これらのタスクに対する効果的な解決法が依然として不足していることが明らかになり、より効率的かつコスト効果の高いE2ESDソリューションの必要性が強調されています。