SSR: 大規模言語モデルの推論のためのソクラティック自己精練

大規模言語モデル（LLM）は優れた推論能力を示していますが、従来のテストフレームワークは粗い自己検証や自己修正に頼っており、複雑なタスクに対する効果を制限しています。本論文では、新たに提案されたフレームワーク「ソクラティック自己精練（SSR）」を紹介します。SSRはモデルの応答を検証可能な（サブ質問、サブ回答）ペアに分解し、制御された再解決や自己一貫性チェックを通じて、ステップレベルの信頼性評価を行います。信頼できないステップを特定し、反復的に精練することで、SSRはより正確で解釈可能な推論チェーンを生成します。五つの推論ベンチマークと三つのLLMによる実証結果から、SSRは最先端の反復自己精練ベースラインを常に上回るパフォーマンスを示しました。加えて、SSRはLLMの内部推論プロセスを評価し理解するための原則的なブラックボックスアプローチを提供します。