RAVR(参照回答誘導型変分推論)は、大規模言語モデル(LLM)における推論能力を向上させるための新たなフレームワークです。従来の強化学習(RL)では、LLMが高い有用性を持つ推論経路を生成する必要があり、困難なタスクではサンプリングが難しいことがある本研究は、認知科学の知見を基に、正しい答えに基づく推論が高品質な推論経路を導くことを示しています。この研究により、LLMは特定の答えを用いて推論を強化することができることが証明されました。RAVRは、回答に基づく推論を質問のみの推論の変分代替として使用し、一般的なタスクや数学的なタスクでの性能改善が実証されています。また、RAVRは躊躇いを減少させ、結論の統合を強化し、問題特有の戦略を促進することが確認されました。