自然言語指示の生成と実行による階層的意思決定

Hierarchical Decision Making by Generating and Following Natural Language Instructions

本論文では、階層的意思決定における複雑な行動の表現として、潜在的な自然言語指示の使用を探求しています。エージェントはまず自然言語で潜在的な計画を生成し、その後別のモデルを通じて実行します。実験では、多数のユニットの長時間スケールでの行動を調整するリアルタイム戦略ゲーム環境を導入しました。76,000組の指示と実行のデータセットを収集し、モデルを訓練しました。その結果、自然言語を潜在変数として使用するモデルが、人間の行動を直接模倣するモデルよりも顕著に優れていることが示されました。言語の構造は行動の表現において重要な役割を果たしています。また、関連するコード、モデル、データも公開されています。