注意ブリッジによるデータ効率的な任意のトランスフォーマーからマンバ蒸留

この記事では、状態空間モデル（SSM）がトランスフォーマーの効率的な代替手段として登場していることについて述べています。これらのモデルは優れたスケーラビリティを提供していますが、訓練には依然として高いコストがかかり、トランスフォーマーとのエコシステムの成熟度に差があります。著者たちは、トランスフォーマーからSSMへの知識蒸留を効率的に実現するための新しいフレームワーク「CAB（Cross-architecture distillation via Attention Bridge）」を提案しています。この手法は、従来の出力レベルの知識蒸留とは異なり、トークンレベルの監督を可能にすることで効率と移転性を向上させます。実験結果は、限られた訓練データでもSSMの性能を一貫して向上させることを示しており、注意ベースの知識が再帰的なモデルに効率的に移転できることを示唆しています。