この記事では、IoTにおけるチャネルアクセスの効率を改善するために、因果モデルに基づいた強化学習(MBRL)の新しい枠組みが提案されています。従来の多エージェント強化学習(MARL)はサンプル非効率性が課題であり、これを解消するための手法として、因果学習のツールを用いた新しいアプローチが開発されました。このモデルは、ネットワーク変数間の因果依存関係を構造的因果モデル(SCMs)や注意ベースの推論ネットワークを使って明示的に表現し、MAC制御メッセージが観測に与える影響や、送信アクションが結果を決定する様子を捉えます。また、ポリシー最適化のために合成データを生成するデータ増強技術も取り入れられています。実験によって、このアプローチが環境との相互作用を58%削減し、モデルフリーベースラインと比べて迅速な収束を示すことが確認されました。因果ベースの新しいアプローチは、リソース制約のある無線システムにおいて実用的な手法として位置づけられています。