本研究では、スパイキングニューラルネットワーク(SNN)を用いた逐次強化学習における課題に取り組んでいます。SNNのスパイキングニューロンは非微分可能であるため、最適化特性が明確ではない代理勾配が必要です。また、状態依存の動的特性により、強化学習では短いシーケンス長に制約され、ネットワークがウォームアップ期間を超えることが妨げられています。本論文では、代理勾配の傾斜設定を系統的に分析し、浅い傾斜が深い層での勾配の大きさを増加させることを示しましたが、真の勾配との一致を低下させることがわかりました。新しいトレーニング手法を提案し、特権的なガイディング方針を利用して学習プロセスをブートストラップし、オンライン環境との相互作用を活用しました。リアルなドローン位置制御タスクでの実験により、従来の手法よりも大幅な性能向上を達成しました。この研究は、スパイキングニューラルネットワークにおける代理勾配学習の理論的理解と、神経形態制御器の実用的なトレーニング手法に貢献します。