本記事では、M-GRPOと呼ばれる新しい手法を用いて、マルチエージェントシステムの訓練に関する研究が紹介されています。従来の手法ではすべてのエージェントに対し統一された大規模言語モデル(LLM)を使用していましたが、異なる分布の特性により性能が制限されることが指摘されています。この問題を解決するために、M-GRPOは、主エージェント(プランナー)と複数のサブエージェント(ツール実行者)からなる階層的なアプローチを採用しています。各エージェントは別のサーバーで動作し、最小限の統計情報を共有ストレージを通じて交換します。この手法により、サーバー間の逆伝播なしにスケーラブルな訓練が可能となり、実際のベンチマークにおいて、M-GRPOは単一エージェントのGRPOや固定サブエージェントのマルチエージェントGRPOよりも一貫して優れた性能を示しました。この研究は、ツールを活用した推論タスクの改善に寄与することが期待されています。