arXiv cs.AI

現実に根ざした学習とオフラインログからのプロアクティブLLMの展開

Grounded in Reality: Learning and Deploying Proactive LLM from Offline Logs

http://arxiv.org/abs/2510.25441v1


大型言語モデル(LLM)は通常パッシブな応答者として優れているが、高リスクの領域においてはプロアクティブで目標指向のパートナーとしての能力を教えることが課題である。本記事では、オフラインの専門データから直接プロアクティブな対話エージェントを学習・展開するための一般的なシミュレーター不要のフレームワーク「Learn-to-Ask」を提案する。このアプローチでは、専門家のトラジェクトリの観察された未来を利用することで、長期的な問題を一連の監視学習タスクに分解し、「何を尋ねるか」と「いつ止めるか」を制御する構造化されたタプルを出力するポリシーを訓練する。本手法は医療データセットでの実証に成功し、最終的には40BのLLMを使用したオンラインAIサービスの導入につながった。厳格な内部評価の結果、モデルは人間の専門家を上回るパフォーマンスを達成することができ、このフレームワークがオフラインデータの実世界での応用へと転換できる可能性を示した。