Kimi Linear: 表現力豊かで効率的な注意アーキテクチャ

Kimi Linearは、長短のコンテキストにおいて従来のフルアテンション手法を上回るハイブリッド線形アテンションアーキテクチャです。中心にはKimi Delta Attention（KDA）があり、これは有限状態RNNメモリの使用を最適化するための効率的なゲーティングメカニズムを導入しています。Kimi Linearは、長いコンテキストタスクにおいて、パフォーマンスとハードウェア効率を高めることができ、従来の手法に比べて最大6倍のデコーディングスループットを実現します。また、Kimi Linearは、特に1Mトークンの長いシーケンスにおいてTPOTを6.3倍高速化し、KVキャッシュの必要性を75%も削減します。このモデルはオープンソースとして提供され、Hugging Face上で簡単に利用可能です。