CoMViT: 医療画像における監視分類のための効率的なビジョンバックボーン

CoMViT: An Efficient Vision Backbone for Supervised Classification in Medical Imaging

本論文では、医療画像解析に特化したコンパクトで一般化可能なビジョントランスフォーマーアーキテクチャ「CoMViT」を提案します。従来のビジョントランスフォーマーは計算要求が高く、小規模なデータセットに対して過学習しやすいため、実際の臨床シナリオでの適用が制限されています。CoMViTは、畳み込みトークナイザーやダイアゴナルマスキング、動的温度スケーリング、プーリングベースのシーケンス集約を統合し、パフォーマンスを向上させています。本アーキテクチャは、全12のMedMNISTデータセットで強力なパフォーマンスを示し、約450万のパラメータを持つ軽量設計を実現しています。従来の深いCNNやViTのバリエーションと同等またはそれ以上の性能を維持しつつ、パラメータを5-20倍削減できることが確認されています。Qualitative Grad-CAM分析により、CoMViTはそのコンパクトなサイズにもかかわらず、臨床上重要な領域に常に注意を向けていることが示されました。