LLMにおける良い推論の定義とは？多角的評価による推論ステップの分析

What Defines Good Reasoning in LLMs? Dissecting Reasoning Steps with Multi-Aspect Evaluation

本記事では、大規模言語モデル（LLM）の推論品質を「関連性」と「一貫性」の二次元で評価する手法を提案しています。従来の最終的な解答の正確性に基づく評価は粗雑で、推論過程の質を見落としがちです。著者らは、推論の各ステップをその前のステップに基づいて評価する「因果段階評価（CaSE）」を導入し、これによりヒューリスティックバイアスを避けられます。CaSEを使用して評価した結果は、新たに作成した専門家アノテーションのベンチマークで人間の判断と一致し、関連性と一貫性を考慮したトレーニングデータの整備が最終的なタスクパフォーマンスを直接向上させることを示しました。この研究は、LLMの推論分析や改善のためのスケーラブルなフレームワークを提供しています。