arXiv cs.LG

ブロックアテンションの混合最適化

Optimizing Mixture of Block Attention

http://arxiv.org/abs/2511.11571v1


本論文では、Mixture of Block Attention (MoBA) の最適化に関する研究が紹介されています。MoBAは、LLMにおける長大なコンテキスト処理を効率化する有望な手法ですが、その性能を支える設計原則は未解明であり、実用化を妨げるGPU実装の効率性にも欠けています。著者たちは、MoBAのメカニズムを分析する統計モデルを開発し、ルーターの性能がクエリ-キーの親和性に基づいて関連するブロックを正確に識別する能力に依存していることを明らかにしました。その結果、ブロックサイズを小さくし、キー上に短い畳み込みを適用することで、ルーティングの精度を向上させる手法が提案されました。さらに、FlashMoBAと呼ばれるCUDAカーネルを導入し、小さなブロックサイズでのMoBAの効率的な実行を可能にしました。このアプローチにより、提案されたMoBAモデルは高いパフォーマンスを示し、計算効率も向上しました。