グラフ強化ポリシー最適化によるLLMエージェントの訓練

グループベースの強化学習（RL）は、複雑な推論や数学的タスクにおいて素晴らしい成果を上げていますが、マルチターンのインタラクティブなLLMエージェントを訓練する際には、構造的盲点に直面することがあります。この問題は、非効率的な探索や重要な状態を見落とすことによる不正確なクレジット割り当て、静的な報酬割引による近視的な計画といった課題として現れます。これらの問題に対処するため、「グラフ強化ポリシー最適化（GEPO）」が提案されています。GEPOは、エージェントの経験から動的に状態遷移グラフを構築し、グラフ理論的中心性を用いて探索を高影響度の状態に導く構造化された内的報酬や、トポロジーを考慮したクレジット割り当てのためのグラフ強化アドバンテージ関数、各状態の戦略的価値に適応した動的割引率を提供します。実験結果では、ALFWorld、WebShop、および独自のWorkbenchベンチマークにおいて、GEPOは競争的ベースラインに対して成功率をそれぞれ+4.1%、+5.3%、+10.9%向上させることが確認されました。この結果は、環境構造を明示的にモデル化することがLLMエージェントの訓練を進める上で強力で一般化可能な戦略であることを示しています。