この研究は、自動プログラム修復のプロセスにおけるテストのオーバーフィッティングの問題を扱っています。具体的には、修復されたコードが既知のテストには合格するものの、隠れたテストセットでは失敗するケースがあります。この問題は大規模言語モデルの登場以前から存在が指摘されていました。本研究では、現在のソフトウェアエンジニアリングの課題を考慮しつつ、リポジトリレベルのSWE-benchタスクを使用して、オーバーフィッティングの問題がどれほど依然として重要であるかを実験的に検討しています。本論文は、特に自動プログラム修復におけるLLMの役割とその影響を評価することを目的としています。