オフラインマルチタスク強化学習のためのソフトコンフリクト解決決定トランスフォーマー

Soft Conflict-Resolution Decision Transformer for Offline Multi-Task Reinforcement Learning

マルチタスク強化学習（MTRL）は、多様なタスクに対して統一的な方針を学習することを目指しますが、タスク間の勾配の対立に悩まされることがよくあります。従来のマスキング手法は、タスク特有のパラメータマスクを割り当てることでこの対立を軽減しようとしていますが、粗い二値マスクが重要な対立パラメータを過剰に抑圧するという問題があります。これにより、タスク間の知識共有が妨げられます。また、異なるタスクが異なる対立レベルを示しますが、既存の手法は一律のスパース戦略を用いており、適切ではありません。これらの制限を克服するために、提案されたSoft Conflict-resolution method（SoCo-DT）は、パラメータの重要性に基づいています。Fisher情報を活用し、マスク値を動的に調整して重要なパラメータを保持しながら、対立するパラメータを抑制します。さらに、四分位範囲に基づく動的スパース調整戦略も導入されています。実験結果は、SoCo-DTが先進的方法よりも優れた性能を示すことを証明しています。