月面遅延耐性ネットワークにおけるグラフアテンションベースのマルチエージェント強化学習による非中央集権的ルーティングポリシーの学習

Learning Decentralized Routing Policies via Graph Attention-based Multi-Agent Reinforcement Learning in Lunar Delay-Tolerant Networks

本稿では、月面遅延耐性ネットワーク（LDTN）の制約下で動作するマルチロボット探査ミッションのための完全非中央集権的なルーティングフレームワークを提案します。この設定では、自律型ローバーが不定期の接続と未知の移動パターンのもとで収集したデータを着陸船へ中継する必要があります。この問題を部分可観測マルコフ決定問題（POMDP）として定式化し、中央集権的トレーニングと非中央集権的実行を行うグラフアテンションベースのマルチエージェント強化学習（GAT-MARL）ポリシーを提案します。提案手法はローカル観測にのみ依存し、古典的アプローチのようなトポロジーの全体更新やパケットの複製を必要としません。モンテカルロシミュレーションを用いた無秩序探査環境において、GAT-MARLは高い配信率を実現し、パケットの重複や損失を減少させることが確認されました。未来の宇宙ロボットシステムに向けたスケーラブルなソリューションを提供することが示されました。