すべての注意が重要：長文コンテキスト推論のための効率的なハイブリッドアーキテクチャ

Every Attention Matters: An Efficient Hybrid Architecture for Long-Context Reasoning

この記事では、長文コンテキスト推論のために設計されたハイブリッドアーキテクチャの「Ring-linear」モデルシリーズについて紹介しています。特に「Ring-mini-linear-2.0」と「Ring-flash-linear-2.0」の2モデルがあり、前者は160億パラメータ、後者は1040億パラメータを持ちます。両モデルは、線形注意とソフトマックス注意を効果的に統合し、長文推論におけるI/Oおよび計算コストを大幅に削減します。これにより、推論コストは従来の32億パラメータの密なモデルに比べて1/10に、元のRingシリーズに比べて50%以上削減されました。また、異なる注意メカニズムの比率を体系的に探索することで、最適なモデル構造を特定しました。さらに、高性能なFP8オペレータライブラリを使用することで、トレーニング効率を50%向上させました。これらのモデルは、強化学習フェーズで安定かつ効率的な最適化を維持しながら、複雑な推論ベンチマークでの最高のパフォーマンスを達成しています。