実世界におけるLLM提案のパフォーマンス改善に関する実験的研究

本論文は、大規模言語モデル（LLM）が実際に高速なコードを生成できるかを検討しています。65のオープンソースJavaプログラムから抽出した実世界のタスクを用い、開発者が著しい高速化を実現したタスクを選びました。二つの主要なLLMを使用し、四つのプロンプトの変化に基づいて自動生成されたパッチを検証し、人間が記述したソリューションと対比させました。その結果、LLMが生成するコードは、多くの場合、基準と比較して性能が向上することが示されましたが、人間が提案したパッチが統計的に有意にLLMの修正を上回ることが明らかになりました。また、LLMの解決策は約2/3のケースで開発者の最適化アイデアと意味的に同一または類似しており、残りの1/3ではより独自のアイデアを提案することが分かりましたが、その独自のアイデアが顕著な性能向上をもたらすのは稀であることも分かりました。