連続時間制御のためのアクション駆動プロセス

強化学習の中心には、環境の観察に対する決定としてのアクションがあります。アクションは確率過程のモデリングにおいても重要であり、状態の不連続な遷移を引き起こし、大規模で複雑なシステムを通じた情報の流れを可能にします。本論文では、確率過程と強化学習の視点をアクション駆動プロセスを通じて統一し、スパイキングニューラルネットワークへの応用を示しています。制御としての推論のアイデアを利用し、ポリシー駆動の真の分布と報酬駆動モデル分布の間のクルバック・ライブラー発散を最小化することが適切に定義されたアクション駆動プロセスにおいて最大エントロピー強化学習と同等であることを示しています。