arXiv cs.AI

ソフトマスク付き拡散言語モデル

Soft-Masked Diffusion Language Models

http://arxiv.org/abs/2510.17206v1


この記事では、ソフトマスク付き拡散言語モデル(SM-Diffusion)について紹介しています。拡散モデルは、従来の自己回帰型アプローチと比較して、並列処理による応答生成と内蔵の自己修正機構を活かし、多くの利点を提供します。従来のマスク拡散モデルでは、マスクされたトークンを保持するか予測されたトークンに置き換えるという二元選択に基づいていますが、保持する場合に予測に関する重要な情報が失われるという制約があります。これを解決するために、著者らはソフトマスキングという新しい手法を提案し、マスクトークンの埋め込みと前回のデコーディングステップからの上位kの予測トークンの埋め込みを動的に混合します。このアプローチにより、モデルはより情報に富んだ優先情報を取得し、過去の文脈を保持しつつマスクされたトークンについて部分的な情報が流れることが可能になります。最終的に、SMは複数のコーディングベンチマークにおいてパフォーマンスを改善することが確認されました。