会話の迷子を軽減するためのカリキュラム強化学習における検証可能な精度と自制報酬

Verifiable Accuracy and Abstention Rewards in Curriculum RL to Alleviate Lost-in-Conversation

大規模言語モデルは単一ターンの指示に従う能力が高いものの、情報が段階的に明らかになる多ターン設定ではパフォーマンスの低下、すなわちLost-in-Conversation (LiC) の問題を抱えています。著者は、検証可能な報酬を用いる強化学習 (RLVR) の進展に基づき、RLAAR (自身の精度と自制を評価するカリキュラム強化学習) を提案します。このフレームワークは、モデルに正確な回答を生成するだけでなく、多ターン会話における問題の解決可能性を判断させることを目的としています。RLAARは、問題解決と情報に基づく自制を両立させることで、LiCの原因となる早計な回答行動を減少させ、性能低下を62.6%から75.1%に、適切な自制率を33.5%から73.4%に改善しました。この結果は、信頼性の高い多ターンLLMを構築するための実践的な手法を示しています。