行動適応型Q学習：オフラインからオンラインRLへの統一フレームワーク

オフライン強化学習（RL）は固定データからの学習を可能にしますが、学習したポリシーは動的環境での配信シフトや未見の状態行動ペアに対する不正確な価値推定によって苦労することがあります。この問題を解決するために提案されたのが、行動適応型Q学習（BAQ）です。BAQは、オフラインデータから導出された暗黙の行動モデルを活用し、オンライン微調整中に行動の一貫性を保つ信号を提供します。このフレームワークは、（i）不確実性が高いときにオンラインポリシーをオフラインの行動に整合させ、（ii）より自信のあるオンライン経験が蓄積されるにつれてこの制約を緩和する二重目標損失を取り入れています。BAQは、より安定した初期オンライン更新を実現し、新しいシナリオへの適応を加速させるとともに、従来のオフラインからオンラインへのRLアプローチと比較して、常に優れた性能を示しました。結果は、暗黙の行動適応が信頼性の高い実世界でのポリシー展開のための実践的な解決策であることを示しています。