arXiv cs.AI

SWE-Compass: 大規模言語モデルのエージェンティックコーディング能力の統一評価に向けて

SWE-Compass: Towards Unified Evaluation of Agentic Coding Abilities for Large Language Models

http://arxiv.org/abs/2511.05459v1


本記事では、大規模言語モデル(LLM)のソフトウェアエンジニアリングにおける評価の限界を克服するために新たに提案された評価基準「SWE-Compass」について説明しています。従来のベンチマークは狭いタスクに焦点を当て、実際の開発者のワークフローとの整合性が不足していたため、本研究では、8つのタスクタイプ、8つのプログラミングシナリオ、10のプログラミング言語を横断的に評価できる包括的なフレームワークが提供されました。2000件の実際のGitHubプルリクエストからキュレーションされた高品質なインスタンスを用いて、10種類の最先端のLLMが評価され、タスクの難易度、言語、シナリオにおける明確な階層が示されました。SWE-Compassは、実世界の開発慣習と評価を統合することで、エージェンティックコーディング能力の診断と向上を支援するための厳格で再現可能な基盤を提供します。