本研究は、マルチチャネルドメインにおけるVision Transformers(ViTs)の最適化について探求します。特に、各チャネルごとに異なる情報を持つことから、チャネル間の相互作用の重要性に焦点を当てます。従来の手法では、各チャネルを独立して扱うことで効率を示しましたが、注意メカニズムにおける計算負荷が増大する問題がありました。本論文では、スパースミクスチャーオブエキスパート(MoE)から着想を得た新しいアーキテクチャ、MoE-ViTを提案し、各チャネルをエキスパートとして扱い、最も関連のあるエキスパートのみを選択して注意を行う手法を採用します。実験結果は、MoE-ViTが著しい効率向上を実現し、パフォーマンスの向上も示すことを明らかにしました。本研究は、マルチチャネルイメージングの実用的かつ魅力的なバックボーンになると期待されます。