行動量子化を用いた軌道最適化による人間のような強化学習エージェントの学習

Learning Human-Like RL Agents Through Trajectory Optimization With Action Quantization

本研究では、人間のような行動を持つ強化学習（RL）エージェントの開発を目指しています。強化学習は多くの分野で超人的な性能を発揮していますが、人間のような振る舞いを持つエージェントの設計にはあまり注目が集まっていなかったため、報酬に基づくRLエージェントの多くは人間らしさを欠いています。そこで、この論文では、ヒトの行動に近い行動列を見つけることを目的とした軌道最適化の手法を提案し、古典的な後退地平線制御を人間のような学習に適応させます。また、マクロアクション量子化（MAQ）というフレームワークを導入し、ヒトのデモンストレーションをマクロアクションへと抽出します。実験結果では、MAQが人間らしさを大幅に向上させ、他のRLエージェントと比較して最も高い評価を得たことが示されています。これにより、今後の人間のようなRLエージェントの学習に新たな道が開かれることが期待されます。