注意と圧縮は制御可能な効率的言語モデルに必要なすべて

Attention and Compression is all you need for Controllably Efficient Language Models

本記事では、トランスフォーマーにおける注意機構の計算コストの問題について考察し、効率的な手法としてスパースアテンションやスライディングウィンドウアテンション、畳み込み、線形アテンションなどが提案されています。しかし、これらの手法は通常、質とのトレードオフがあり、特に文脈内のリコール性能に影響を与えます。そこで、著者たちは「Compress & Attend Transformer（CAT）」を提案し、密な注意機構と圧縮という二つのシンプルな要素で構成されるアーキテクチャを紹介しています。CATは、圧縮されたトークンのチャンクに注意を集めることで、計算とメモリの効率を向上させつつ質を調整することが可能です。評価の結果、CATは既存の効率的ベースラインやハイブリッドアーキテクチャを上回る性能を示し、高速かつ低メモリでの言語モデル化を実現しました。