無線基盤モデル(WFM)は、最近、多様な無線機能を同時に実行し、新しい環境に効果的に適応する能力を示しています。しかし、従来のWFMは、タスクや運用条件に応じて一つのモダリティのみを処理しているため、情報が最も豊富なモダリティが状況に応じて変化し、すべてのタスクに最適なモダリティは存在しません。そこで、本研究では、IQストリームや画像のような無線モダリティ(スペクトログラムやCSIなど)を処理できる初のマルチモーダル無線基盤モデルを提案します。このモデルは、マスク無線モデリングという自己教師ありの目的と事前学習手法を導入し、IQストリームと画像モダリティから共同表現を学習します。我々は、画像ベース(人間の活動感知、RF信号分類、5G NR位置特定)とIQベース(RFデバイスフィンガープリンティング、干渉検出/分類)の5つのタスクにおいてモデルを評価しました。その結果、マルチモーダルWFMはシングルモダリティのWFMと競争力があり、いくつかのケースではその性能を上回ることが示されました。この研究は、異なるモダリティで多様な無線タスクをサポートするマルチモーダルWFMの開発に向けた具体的なステップです。