CodeAlignBench: 開発者が好むコード修正におけるコード生成モデルの評価

CodeAlignBench: Assessing Code Generation Models on Developer-Preferred Code Adjustments

本論文では、コード生成モデルの性能評価のための新たなベンチマーク「CodeAlignBench」を提案します。従来のベンチマークは機能的正確性に焦点を当てる一方で、実際のコーディングタスクの多様性や開発者の期待を十分に考慮していません。そのため、我々のベンチマークは複数のプログラミング言語に対応し、コード生成モデルの指示に従う能力を評価します。具体的には、初期問題で指定された制約に従う能力と、追加指示に基づく修正能力を評価します。分析には、LiveBenchから自動的にPythonからJava及びJavaScriptに翻訳されたプログラミングタスクを使用しました。その結果、モデルは異なる指示に対するパフォーマンスにおいてさまざまなレベルの違いを示しました。このベンチマークによって、コード生成モデルの長所と限界が明らかになります。