この論文は、ハードウェアとアルゴリズムの共同設計を通じて最適化された低消費電力のビジョントランスフォーマーアクセラレーターについて述べています。現在のトランスフォーマーアクセラレーターは主に自己注意の最適化に焦点を当てていますが、短いトークン長のビジョントランスフォーマーでは、フィードフォワードネットワーク(FFN)が主な計算のボトルネックとなることが多いです。本研究では、ハードウェアに優しい動的トークンプルーニングを用いてモデルの複雑さを減少させ、GELUをReLU活性化関数に置き換え、動的FFN2プルーニングを行うことで、操作数を61.5%削減し、FFN2の重みを59.3%削減しました。実装では、データの転置を排除するために出力指向のデータアクセスを使用し、最大スループット1024 GOPS、エネルギー効率2.31 TOPS/Wを実現しています。