多段階タスクの自己評価LLMs：失敗検出のための段階的信頼度推定

Self-Evaluating LLMs for Multi-Step Tasks: Stepwise Confidence Estimation for Failure Detection

大規模言語モデル（LLMs）の信頼性と失敗検出は、高リスクの多段階推論タスクにおける展開において重要です。本研究では、従来の研究が単一ステップの出力に重点を置いている中、自己評価技術を多段階タスクに拡張しました。具体的には、全体的なスコアリングと段階ごとのスコアリングの2つのアプローチをテストしました。2つの多段階ベンチマークデータセットを用いた実験により、段階的評価が全体的なスコアリングよりもエラー検出において効果的であり、AUC-ROCの相対的な増加が最大15%であることが示されました。この発見は、複雑な推論における自己評価LLMシステムが信頼性の高い信頼度推定を提供し、失敗検出のための実用的な枠組みを提供することを示しています。