ポストトレーニングLLMをより良い意思決定エージェントとして: 後悔最小化アプローチ

Post-Training LLMs as Better Decision-Making Agents: A Regret-Minimization Approach

大規模言語モデル（LLM）は、インタラクティブでダイナミックな環境における意思決定（DM）エージェントとしての役割が増しています。しかし、元々DM用に設計されていないため、LLMは基本的なオンラインDM問題においても苦戦し、低い後悔や効果的な探索・活用のトレードオフを実現できないことが示されています。この問題に対処するために、著者らは「反復後悔最小化ファインチューニング（Iterative RMFT）」という手法を提案しています。この手法では、複数の意思決定経路を試行し、最も低い後悔を持つ経路を選んでモデルをファインチューニングします。従来の方法と異なり、事前に知られているDMアルゴリズムに基づく行動系列を抽出するのではなく、モデル自身の推論能力を引き出すことに焦点を当てています。実験結果では、Iterative RMFTが様々なモデルでLLMのDM性能を向上させることが確認されています。さらに、理論的には単層Transformerがこのパラダイムの下で後悔のない学習者として機能できることを示しています。全体として、Iterative RMFTはLLMの意思決定能力を高めるための理論的かつ普遍的な手法を提供します。