牡蠣を開け: LLMにおけるコード推論の信頼性の実証評価と改善

Open the Oyster: Empirical Evaluation and Improvement of Code Reasoning Confidence in LLMs

本論文では、大規模言語モデル（LLM）がコードインテリジェンスの分野で広く利用されている中、その出力の信頼性と制御性に対する関心が高まっていることを背景に、コード推論タスクに特化した信頼性分析と強化のフレームワークを提案しています。主流のLLMの信頼性をさまざまなタスクにわたって実証的に調査した結果、DeepSeek-Reasonerが最も優れたパフォーマンスを示し、信頼性の向上においても、再評価プロンプト戦略とPlatt Scalingを組み合わせたハイブリッド戦略が特に効果的であることが分かりました。研究では、タスクの複雑さやモデルのスケールが信頼性に与える影響も考察し、複雑な推論タスクに対するLLMの信頼性が今後の改善余地を持つことを指摘しています。