因果関係を考慮した強化学習のためのオブジェクト中心の世界モデル

本研究では、サンプル効率に優れた深層強化学習エージェントをサポートするために開発された世界モデルに焦点を当てています。従来の世界モデルは高次元、非定常、複数のオブジェクトで構成される環境を正確に再現するのが難しいですが、私たちは人間が環境を個別のオブジェクトに分解して知覚する方法に着想を得て、「因果関係を考慮したオブジェクト中心のトランスフォーマー」を提案します。これは、オブジェクト中心のトークンのセットとして観測値を表現し、エージェントのアクションや結果として得られる報酬をトークンとして扱うことで、トークンレベルのダイナミクスを予測します。提案手法は、因果関係に基づいた意思決定を可能にし、実験では従来の最先端エージェントに対して、サンプル効率と最終性能の両方で一貫して優越性を示しました。