この記事では、視覚と言語によるナビゲーション(VLN)のための新しい二重プロセス思考フレームワーク「R3」について説明しています。VLNは、エージェントが複雑な3D環境を人間の指示に従って動的に探査することを要求します。最近の研究では、大規模言語モデル(LLM)の利用が期待されていますが、タスク完遂性能には依然として専門家との差が存在します。提案されたR3は、軽量な専門モデルの「Runner」、強力なマルチモーダルLLMを使用する「Ruminator」、ナビゲーション進行状況を監視する「Regulator」の3つのコアモジュールから構成されます。このフレームワークは、LLMの一般化能力とVLN固有の専門知識を統合し、実験結果においても他の最先端手法に比べて顕著な性能向上を示しています。特にREVERIEベンチマークにおいて3.28%および3.30%の向上を達成し、VLNタスクの取り組みにおける効果が際立っています。