キミ・リニア: 表現力豊かで効率的な注意アーキテクチャ

本稿では、Kimi Linearというハイブリッド線形注意アーキテクチャを紹介します。これは、短い文脈、長い文脈、強化学習スケーリングの各シナリオにおいてフルアテンションを公平に超える初の試みです。Kimi Delta Attention（KDA）という、細かい制御機構を持つ表現力豊かな線形注意モジュールが基盤となり、有限状態RNNメモリをより効果的に活用します。また、特別なDiagonl-Plus-Low-Rank（DPLR）遷移行列を用いたチャンク単位のアルゴリズムにより、計算を大幅に削減しつつ、古典的なデルタルールに即した整合性を保ちます。3Bの活性パラメータを持つKimi Linearモデルを訓練し、実験の結果、同一のトレーニング条件下でフルMLAを大幅に上回り、KVキャッシュの使用量を75%削減、1Mの文脈で最大6倍のデコーディングスループットを達成しました。これにより、Kimi Linearはフルアテンションアーキテクチャの優れた代替としての可能性を示します。