arXiv cs.AI

仮想幅ネットワーク

Virtual Width Networks

http://arxiv.org/abs/2511.11238v1


本記事では、仮想幅ネットワーク(VWN)というフレームワークを紹介しています。このフレームワークは、隠れサイズを増加させることで生じる二次的なコストなしに、広い表現の利点を提供します。VWNは、表現の幅とバックボーンの幅を分離し、バックボーンの計算量をほぼ一定に保ちながら埋め込み空間を拡大します。大規模な実験では、8倍の拡張が次のトークンの予測で2倍、次の2トークンの予測で3倍の最適化の加速をもたらしました。トレーニングが進むにつれて利点は増幅され、損失の差が広がり収束速度が向上しています。また、仮想幅と損失削減との間にはおおよそ対数線形スケーリング関係があることを特定し、大規模モデルの効率向上の新たな次元として仮想幅のスケーリングを探求するための初期的な実証的根拠を提供しています。