MARS: 戦略ゲームにおける自己プレイを通じてLLMのマルチエージェント推論を強化する

MARS: Reinforcing Multi-Agent Reasoning of LLMs through Self-Play in Strategic Games

本論文では、マルチエージェントシステムにおいて大規模言語モデル（LLM）が円滑に協力・競争できるようにするための新たな手法、MARSを提案しています。従来の強化学習（RL）は単一エージェントのタスクには効果的ですが、長期的なクレジット割り当ての課題やエージェント特有の優位性の推定により、マルチエージェントのシナリオにおいては十分に探求されていませんでした。MARSは、協力と競争のゲームにおける自己プレイを用いて、マルチエージェント推論を促進するエンド・ツー・エンドのRLフレームワークです。具体的には、ターンごとの優位性推定やエージェント特有の正規化を設け、クレジット割り当てを最適化しています。MARSで訓練されたエージェントは、最大28.7%の性能向上を達成し、推論ベンチマークでも安定した成果を上げています。この研究により、戦略ゲームでの自己プレイを通じたエンド・ツー・エンドのRLトレーニングが、LLMにおける汎用的なマルチエージェント推論能力を育成するための強力なアプローチであることが示されました。