実証ソフトウェア工学研究における商業LLM性能の再現性に関する考察

Reflections on the Reproducibility of Commercial LLM Performance in Empirical Software Engineering Studies

大規模言語モデル（LLM）は、産業界や学術界で注目を集めており、特に実証研究においてその再現性が課題となっています。2024年のICSEでは425件の発表のうち78件がLLMを用いた実験を行っており、この分野での研究は増加しています。しかし、実証研究を行う際、他の研究者や実務者が再現性のある結果を得るための方法が不明確です。私たちはICSE 2024とASE 2024において発表された86件のLLM関連研究を分析し、そのうち18件のみが研究成果物を提供しています。18件の研究のうち、最終的に5件のみが再現性のある結果を提示しましたが、完全再現はできませんでした。再現性評価の厳格さや研究設計の強化が、今後の出版物にとって重要であることを示唆しています。