ODE-ViT: 常微分方程としてのViTの一般化からのプラグ＆プレイアテンションレイヤー

ODE-ViT: Plug & Play Attention Layer from the Generalization of the ViT as an Ordinary Differential Equation

近年、大規模なモデルがコンピュータビジョン（CV）タスクで優れた性能を達成していますが、これらのモデルは計算資源とストレージを多く消費し、その複雑さが意思決定の理解を制限します。多くのアーキテクチャはTransformerベースの設計でのアテンションメカニズムに依存しています。本研究では、残差ニューラルネットワークと常微分方程式（ODE）の関連性に基づき、ODE-ViTというVision TransformerをODEシステムとして再定式化し、十分に定義され安定したダイナミクスを満たすことを示します。CIFAR-10およびCIFAR-100での実験では、ODE-ViTが安定で解釈可能かつ、パラメータ数を最大10分の1に削減しつつ競争力のある性能を示したことが確認され、従来のODEベースのTransformer手法を上回りました。さらに、離散的なViTがODE-ViTの連続的な軌道を導くプラグアンドプレイの教師-生徒フレームワークを提案し、教師の中間表現をODEの解と見なすことで、従来手法よりも10%以上の性能向上が確認されています。