トラックとドローンの協調システムがラストマイル物流において重要性を増す中、ドローンを含む旅行セールスマン問題(TSP-D)は、従来のルーティング最適化の重要な拡張として位置づけられています。本研究は、自己教師あり方策学習と適応的意思決定を通じてTSP-Dの課題に取り組むための階層型のActor-Critic深層強化学習フレームワークを提案します。提案されたアーキテクチャは、TransformerにインスパイアされたエンコーダーとMinimal Gated Unitデコーダーの2つの主要なコンポーネントから構成されており、空間関係に焦点を当てた最適化されたk近傍スパースアテンション機構を組み込んでいます。実験結果は、提案モデルがさまざまな規模のTSP-Dベンチマークインスタンスにおいて、優れた計算時間で競合または優れた解を得られることを示しています。また、トレーニング効率の向上も強調されています。