マルチエージェント進化：共進化によるLLMの自己改善

本論文では、マルチエージェント進化（MAE）というフレームワークを提案し、これによって大規模言語モデル（LLM）が数学、推論、一般知識のQ&Aを含む多様なタスクを自己進化する仕組みを解説します。従来の強化学習（RL）は人手で作成されたデータセットに依存するため、スケーラビリティに限界がありました。一方で、自動対戦型のRL手法が登場しましたが、広いドメインへの適用には課題があります。MAEでは、提案者（Proposer）、解決者（Solver）、審査者（Judge）という三つのエージェントが相互作用し、RLを用いて行動を最適化します。実験では、Qwen2.5-3B-Instructを用い、MAEが複数のベンチマークで平均4.54%の改善を達成したことが示され、LLMの一般的な推論能力向上に対するデータ効率的な手法としての有効性が確認されました。