本記事では、大規模言語モデル(LLM)の推論品質を「関連性」と「一貫性」の二次元で評価する手法を提案しています。従来の最終的な解答の正確性に基づく評価は粗雑で、推論過程の質を見落としがちです。著者らは、推論の各ステップをその前のステップに基づいて評価する「因果段階評価(CaSE)」を導入し、これによりヒューリスティックバイアスを避けられます。CaSEを使用して評価した結果は、新たに作成した専門家アノテーションのベンチマークで人間の判断と一致し、関連性と一貫性を考慮したトレーニングデータの整備が最終的なタスクパフォーマンスを直接向上させることを示しました。この研究は、LLMの推論分析や改善のためのスケーラブルなフレームワークを提供しています。