マスク付き逆強化学習：デモと自然言語からの報酬の曖昧性の解消

本研究では、ロボットがデモンストレーションから報酬関数を学ぶことでユーザの好みに適応できる一方、限られたデータでは報酬モデルが偽の相関に過剰適合し、一般化に失敗する問題を扱っています。通常のデモはタスクの実行方法を示す一方で、何が重要かを明示しないため、モデルが無関係な状態の詳細に焦点を当ててしまいます。自然言語はロボットが何に注意を向けるべきかを直接示すことができ、デモに一致する報酬関数の曖昧さを解消する可能性があります。しかし、従来の方法は指示を単なる条件信号として扱い、曖昧さを解消する潜在能力を十分に活用できていません。本研究で提案する「マスク付き逆強化学習（Masked IRL）」は、大規模言語モデルを利用してデモと自然言語の強みを統合します。このフレームワークは、言語指示から状態の関連性のマスクを推測し、無関係な状態成分に対する不変性を強制します。実験結果から、Masked IRLは従来手法に比べて最大15%の性能向上を示し、データ使用量は最大4.7倍少なく、サンプル効率、一般化、曖昧な言語への耐性が改善されることが確認されました。