Go-UT-Bench: GoにおけるLLMベースの単体テスト生成のためのファインチューニングデータセット

本研究では、Go言語における単体テスト生成のためのファインチューニングデータセット「GO UT Bench」を提案しています。コード生成のための大規模言語モデル（LLM）の訓練データにおいて、オープンソースコードに偏重しがちな問題があり、特にリソースが乏しい言語であるGoにおいてはソフトウェアエンジニアリングタスクが十分に表現されていないことが示されています。そのため、LLMはコードの自動補完に優れている一方で、実際の開発ワークフローである単体テストの生成に苦労しています。本データセットは、10の許可されたライセンスのGoリポジトリから5264対のコードと単体テストを収集しており、エキスパートモデルと密デコーダモデルの両方でファインチューニングの効果を評価しました。その結果、ファインチューニングされたモデルは、基盤モデルと比較して75%以上のベンチマークタスクで優れた性能を示しました。