本研究では、オフポリシー強化学習における価値ベースのアルゴリズムを用いて、連続アクション空間における制御手法を提案しています。従来の方法は、アクター-クリティック手法に基づいており、クリティックがオフポリシーデータを使ってQ値を推定し、アクターがその出力を最大化するというものでした。しかしながら、これらの手法はトレーニングの不安定性が問題とされています。本研究では、アクターを必要としない価値ベースのフレームワークを提案し、Q関数の構造的最大化を再検討しています。これにより、効率的で安定した学習が可能となります。提案手法は、標準的なシミュレーションタスクにおいて、最新技術と同等以上のパフォーマンスを示し、アクターを学ぶコストを省いています。特に、制約のあるアクション空間では、この方法が従来のアクター-クリティック手法に比べて優れた結果を出しています。