言語ガイド強化学習のためのPPOを用いたインタリーブエンコーダの適応に関する研究(BabyAI)

Adapting Interleaved Encoders with PPO for Language-Guided Reinforcement Learning in BabyAI

本研究では、視覚と言語の理解を必要とするタスクにおけるディープ強化学習エージェントの性能向上を目指しています。従来のアーキテクチャでは、知覚（例：CNNベースの視覚エンコーダ）と意思決定（ポリシーネットワーク）が分離されており、この分離が非効率的な要因とされています。これを解決するために、Maoら（2023）が提唱したPDiT（Perception-Decision Interleaving Transformer）アーキテクチャを実装しました。このアーキテクチャは、単一のトランスフォーマー内で知覚と意思決定の層を交互に処理します。これにより、意思決定からのフィードバックが知覚特徴を動的に改善することが可能になります。また、テキストミッションの埋め込みと視覚シーンの特徴を整合させるために、CLIPにインスパイアされた対比損失を統合しました。実験では、BabyAIのGoToLocal環境においてPDiTエンコーダが標準のPPOベースラインと比較して、より安定した報酬と強い整合性を示すことを発見しました。この結果は、統合された自律エージェント開発の有望な方向性を示唆しています。