合成ベンチマークを超えて：リアルワールドのクラスレベルコード生成におけるLLMの性能評価

Beyond Synthetic Benchmarks: Evaluating LLM Performance on Real-World Class-Level Code Generation

この記事では、大規模言語モデル（LLM）が機能レベルでのコード生成を進展させた一方で、実際のソフトウェアプロジェクトにおけるクラスレベルの実装能力が十分に理解されていないことを指摘しています。著者たちは、オープンソースリポジトリから派生した新たなベンチマークを導入し、見たことのあるクラスとないクラスに分けて評価を行いました。その結果、LLMは、合成ベンチマークでは84%から89%の正確性を示す一方で、リアルワールドのクラスタスクではわずか25%から34%の正確性しか達成できないことが明らかになりました。また、エラータイプ分析から、AttributeError、TypeError、AssertionErrorが主要な失敗モードであることが判明し、合成テストでは主にAssertionErrorが強調されている一方で、実世界のシナリオでは型や属性の不一致が問題となることが示されました。この研究は、クラスレベルのエンジニアリングにおけるLLMの限界を浮き彫りにし、改善のための実践的な洞察を提供しています。