宇宙船の自律制御は、打ち上げや上昇、ステージ分離、軌道挿入といった異なる任務フェーズにおいて重要な課題です。この研究では、異なるミッションフェーズに対して個別の政策を必要とする従来の強化学習がもたらす制約を克服するため、トランスフォーマーに基づいた統一的な強化学習フレームワークを提案しています。このフレームワークは、近接政策最適化(PPO)を基にし、リカレントネットワークの代わりにトランスフォーマーエンコーダ・デコーダ構造を用い、ミッション全体にわたって一貫した記憶を維持することを可能にしています。実験では、単一フェーズのベンチマークから始まり、マルチフェーズのウェイポイントナビゲーションに拡張、最終的には大気飛行やステージ分離を含む複雑なロケット上昇問題に適用しています。結果的に、このモデルは単純なケースにおいて解析解に匹敵する性能を示し、ダイナミックに異なるレジーム間で一貫した制御ポリシーを学習することに成功しました。