連続自己回帰言語モデル

この記事では、大規模言語モデル（LLM）の効率がトークン生成プロセスの逐次性により制約されていると指摘しています。この課題を克服するために、新たに提案されたのが連続自己回帰言語モデル（CALM）です。CALMは、次のトークン予測を離散的なものから連続的なベクタ予測にシフトし、Kトークンのチャンクを単一の連続ベクタに圧縮する高忠実度のオートエンコーダを使用します。これにより、モデルの生成ステップ数がK倍削減され、99.9%以上の精度でオリジナルのトークンを再構築可能となります。また、連続領域での堅牢なトレーニングや評価を可能にする包括的なライクリフリーなフレームワークも開発されています。実験結果により、CALMは計算コストを大幅に削減しつつも、従来の基準と同等のパフォーマンスを実現できることが示されました。これにより、次ベクタ予測が超効率的な言語モデルに向けた強力かつスケーラブルなアプローチであることが確立されました。