拡散言語モデルにおけるアテンションシンク

最近、マスクされた拡散言語モデル(DLMs)が従来の自己回帰モデル(ARMs)に代わる有望な選択肢として注目されています。DLMsは双方向のアテンションを持つトランスフォーマーエンコーダを採用し、競争力のあるパフォーマンスを維持しつつ並列トークン生成を可能にします。本研究では、DLMの内部メカニズムに着目し、特にアテンションシンクの現象を実証分析します。DLMsはARMsとは異なる特徴を持つアテンションシンクを示し、生成過程でシンクの位置が動的に変化することを発見しました。また、ARMsがシンクの除去に敏感であるのに対し、DLMsは強固であり、シンクのマスキングによるパフォーマンスの低下はわずかです。この結果は、拡散ベースの言語モデルの内部動作についての新たな知見を提供し、自己回帰モデルとのアテンションの割り当てと利用における根本的な違いを強調します。