この記事では、DiffuAprielという新しいマスクド拡散言語モデルが紹介されている。このモデルは、バイディレクショナルなMambaバックボーンを基にしており、拡散目的と線形時間でのシーケンスモデリングを組み合わせている。DiffuAprielは、Transformerベースの拡散モデルと同等の性能を発揮しつつ、1.3Bモデルで長いシーケンスに対して最大4.4倍の推論スループットを実現する。また、DiffuApriel-Hというハイブリッドバリアントも提案されており、これは注意機構とMambaレイヤーを交互に配置することで、バランスの取れたグローバルおよびローカルコンテキストモデリングにおいて最大2.6倍のスループット改善を提供する。結果として、バイディレクショナルな状態空間アーキテクチャは、マスクド拡散LMsにおいて強力なデノイザーとして機能し、より速くメモリ効率の良いテキスト生成のための実用的かつスケーラブルな基盤を提供することが示された。