量子メトリックエンコーディングによるオフライン強化学習の改善

オフライン強化学習（RL）は、限られたサンプルでの実行が一般的ですが、従来の方法ではパフォーマンスが最適ではないことが多いです。本研究では、Quantum Metric Encoder（QME）を導入し、限られたサンプルに対処する新たなアプローチを提案しています。QMEを使用することで、元の状態や報酬に直接RLフレームワークを適用するのではなく、状態をよりコンパクトで意味のある表現に埋め込みます。この埋め込み手法は、量子回路からインスパイアを受けています。実験では、100サンプルに制限された3つのデータセットでQMEを評価し、Soft-Actor-Critic（SAC）およびImplicit-Q-Learning（IQL）を用いて、QMEによってエンコードされた状態でトレーニングすることが元の状態でトレーニングする場合よりも大幅にパフォーマンスが向上することを示しました。特に、平均最大報酬性能では、SACが116.2%、IQLが117.6%改善されました。この成果は、QMEの幾何学的特性によるものであり、限られたサンプル条件下での効率的なオフラインRL方法の開発に貴重な知見を提供する可能性があります。