本論文では、従来の大規模言語モデル(LLMs)の効率が、逐次的なトークン生成プロセスによって制約されていると指摘します。この制約を克服するためには、各生成ステップの意味的帯域幅を増やす新たな設計軸が必要です。そこで提案されたのが、連続自己回帰言語モデル(CALM)です。CALMは、次のトークンを予測する際に、離散的なアプローチから連続的なベクトル予測へと転換することを目指します。これにより、Kトークンのチャンクを一つの連続ベクトルに圧縮し、99.9%以上の精度で元のトークンを復元可能にします。この方法により、生成ステップの数がK倍削減され、計算コストを大幅に下げつつも高い性能を発揮します。さらに、本研究は、次ベクトル予測が超効率的な言語モデルへの強力かつスケーラブルな道筋であることを示しています。