arXiv cs.AI

言語ガイド強化学習のためのPPOを用いたインタリーブエンコーダの適応に関する研究(BabyAI)

Adapting Interleaved Encoders with PPO for Language-Guided Reinforcement Learning in BabyAI

http://arxiv.org/abs/2510.23148v1


本研究では、視覚と言語の理解を必要とするタスクにおけるディープ強化学習エージェントの性能向上を目指しています。従来のアーキテクチャでは、知覚(例:CNNベースの視覚エンコーダ)と意思決定(ポリシーネットワーク)が分離されており、この分離が非効率的な要因とされています。これを解決するために、Maoら(2023)が提唱したPDiT(Perception-Decision Interleaving Transformer)アーキテクチャを実装しました。このアーキテクチャは、単一のトランスフォーマー内で知覚と意思決定の層を交互に処理します。これにより、意思決定からのフィードバックが知覚特徴を動的に改善することが可能になります。また、テキストミッションの埋め込みと視覚シーンの特徴を整合させるために、CLIPにインスパイアされた対比損失を統合しました。実験では、BabyAIのGoToLocal環境においてPDiTエンコーダが標準のPPOベースラインと比較して、より安定した報酬と強い整合性を示すことを発見しました。この結果は、統合された自律エージェント開発の有望な方向性を示唆しています。