arXiv cs.LG

モバイルデバイスにおけるビジョントランスフォーマーの推論遅延に関する研究

A Study on Inference Latency for Vision Transformers on Mobile Devices

http://arxiv.org/abs/2510.25166v1


本研究は、モバイルデバイスにおけるコンピュータビジョンの分野での機械学習技術の進展を受けて、190種類の実世界のビジョントランスフォーマー(ViT)の性能特性を定量的に分析しています。特に、102の実世界の畳み込みニューラルネットワーク(CNN)との比較を通じて、モバイルデバイス上のViTアーキテクチャの遅延に影響を与える要因について洞察を提供します。さらに、1000の合成ViTの測定遅延を含むデータセットを開発し、リアルワールドのアプリケーションに対して新しいViTの推論遅延を十分な精度で予測できることを示しています。この研究は、モバイル機器におけるビジョントランスフォーマー技術の実用化に向けた重要な知見を提供しています。