メモ: 強化学習によるメモリ効率の良い具現化エージェントの訓練

本論文では、具現化エージェントが長時間効果的に機能するためには、環境において文脈を保持するための記憶の形成とアクセスを行うモデルの開発が重要であると述べています。現在のトランスフォーマーベースの政策訓練では視覚入力が文脈の限界を超えがちですが、人間は経験を圧縮した記憶を活用できます。本研究では、「Memo」というトランスフォーマーベースのアーキテクチャを提案し、メモリ集約型の長期的タスクにおける強化学習の訓練方法を示します。Memoは、モデルの訓練中に定期的な要約トークンを入力に併せることで、メモリの生成と取得を組み込みます。その結果、Memoは従来のトランスフォーマーベースラインを上回る性能を達成し、計算資源と記憶効率も向上しました。さらに、推論時にはより長い文脈への一般化が可能で、ストリーミング環境でも強靭性を保つことが示されています。