本論文では、連続アクション強化学習をサポートする理論的に基づいた連続セミ量子ボルツマンマシン(CSQBM)を導入しています。CSQBMは、可視ユニットに対する指数族事前分布と隠れユニットに対する量子ボルツマン分布を組み合わせたハイブリッド量子古典モデルであり、キュービットの要件を削減しつつ強力な表現力を保持しています。特に、連続変数に関する勾配が解析的に計算できるため、アクター・クリティックアルゴリズムに直接統合することが可能です。この研究に基づき、グローバル最大化の代わりにCSQBM分布からの効率的なサンプリングを用いた連続Q学習フレームワークを提案し、連続制御における不安定性の問題を克服しています。