情報利得に基づくポリシー最適化：マルチターンLLMエージェントのためのシンプルで効果的なアプローチ

Information Gain-based Policy Optimization: A Simple and Effective Approach for Multi-Turn LLM Agents

近年、強化学習（RL）を用いて大規模言語モデル（LLM）に基づくエージェントが外部環境との相互作用を高めるために訓練されていますが、従来の手法は最終的な答えにのみ結果に基づく報酬を使用しており、特にマルチターンの設定では報酬の希薄性が問題となります。これに対して本論文では、情報利得に基づくポリシー最適化（IGPO）という新しいRLフレームワークを提案しています。この手法は、各ターンの相互作用を情報取得の過程として捉え、ターンごとの報酬を正しい答えを導き出す確率の増加として定義します。IGPOは外部の報酬モデルやコストのかかるモンテカルロ推定に依存せず、モデル自身の信念の変化から内的な報酬を直接導出します。このようにして、IGPOは従来の手法を上回る精度とサンプル効率を実現しています。