本論文では、リソースに制約のあるプラットフォームでの展開を容易にするために、軽量で計算効率の良いビジョントランスフォーマーアーキテクチャ「Cascaded-ViT(CViT)」を提案します。CViTは、新しいフィードフォワードネットワークである「Cascaded-Chunk Feed Forward Network(CCFFN)」を採用しており、入力特徴を分割することでパラメータとフロップの効率を向上させつつ、精度を保持しています。実験の結果、CViT-XLモデルは、EfficientViT-M5と比較して15%のフロップ削減と3.3%のエネルギー消費削減を実現し、トップ1精度は75.5%に達しました。また、CViTファミリーは、さまざまなモデルサイズにおいて一貫して最も低いエネルギー消費を示し、モバイルデバイスやドローンなどの電池制約のあるデバイスに適した性能を発揮します。新しく提案された「Accuracy-Per-FLOP(APF)」尺度を用いた評価でも、CViTモデルは高い計算効率を達成しています。特にCViT-Lは、EfficientViT-M2に対し2.2%の精度向上を実現しつつ、APFスコアは同等です。