arXiv cs.AI

LLMにおける良い推論の定義とは?多角的評価による推論ステップの分析

What Defines Good Reasoning in LLMs? Dissecting Reasoning Steps with Multi-Aspect Evaluation

http://arxiv.org/abs/2510.20603v1


本記事では、大規模言語モデル(LLM)の推論品質を「関連性」と「一貫性」の二次元で評価する手法を提案しています。従来の最終的な解答の正確性に基づく評価は粗雑で、推論過程の質を見落としがちです。著者らは、推論の各ステップをその前のステップに基づいて評価する「因果段階評価(CaSE)」を導入し、これによりヒューリスティックバイアスを避けられます。CaSEを使用して評価した結果は、新たに作成した専門家アノテーションのベンチマークで人間の判断と一致し、関連性と一貫性を考慮したトレーニングデータの整備が最終的なタスクパフォーマンスを直接向上させることを示しました。この研究は、LLMの推論分析や改善のためのスケーラブルなフレームワークを提供しています。