この記事では、マルチエージェント強化学習(MARL)におけるエージェントチームの訓練が非常に非効率的であることが指摘されています。初めからチームで演奏を始めるのではなく、まずソロでの演奏経験が必要であると例えられます。従来の手法は高価なマルチエージェントデータに依存しており、ボトルネックになることが多いです。そこで提案されるのが「Solo-to-Collaborative RL(SoCo)」というフレームワークで、これはソロで得た知識を協調的な学習に転送することを目的としています。SoCoはまず、ソロデモから共有されるソロポリシーを事前学習し、その後、モジュラーポリシー融合メカニズムを介して協力に適応します。様々な協力タスクにおける実験結果は、SoCoが訓練効率とパフォーマンスを大幅に向上させることを示しています。この研究は、ソロデモがマルチエージェントデータへの効果的な補完材となり得ることを実証しています。