本論文では、リソース制約のあるエッジデバイスにおけるリアルタイムのマルチモーダル推論の重要性に焦点を当てています。これまでの研究は、センサーの動作とモデル実行の結びつきや、異なるモダリティ間の依存関係の複雑さを見落としていました。提案するフレームワークMMEdgeは、パイプライン型のセンシングとエンコーディングを基にした新しいデバイス上のマルチモーダル推論システムです。MMEdgeは、完全なセンサー入力を待つのではなく、推論プロセスを細かいセンシングおよびエンコーディングの単位に分解し、データが到着するにつれて計算を段階的に進めることを可能にします。また、軽量ながら効果的な時系列集約モジュールも導入しており、精度を維持しながら異なるパイプライン単位間のリッチな時間的動態を捉えます。性能向上のために、動的に最適な設定を選択する適応型マルチモーダル構成オプティマイザーと、低遅延での早期予測を実現するためのクロスモーダルのスキッピングメカニズムも組み込まれています。実際の無人航空機を用いたテストベッドでMMEdgeを評価した結果、エンドツーエンドの遅延を大幅に削減しつつ、高いタスク精度を維持できることが示されました。