VocalNet-M2: 統合型マルチコードブックトークン化とマルチトークン予測による低レイテンシの音声言語モデルの進展

VocalNet-M2: Advancing Low-Latency Spoken Language Modeling via Integrated Multi-Codebook Tokenization and Multi-Token Prediction

VocalNet-M2は、低レイテンシの音声言語モデル(SLM)の新しいアプローチを提案しています。従来のSLMは自動回帰に基づく音声トークン生成と、複雑なフローマッチングモデルに依存しているため、レスポンスタイムが遅くなりがちです。この問題を解決するために、VocalNet-M2はマルチコードブックトークナイザーとマルチトークン予測(MTP)戦略を統合し、トークン生成の効率を向上させています。実験では、初回のチャンクのレイテンシが約725msから350msに減少し、主流SLMと比較しても競争力のある性能を維持していることが示されました。この研究は、シングルコードブックとマルチコードブック戦略の包括的な比較を行い、リアルタイムインタラクティブアプリケーション向けの効率的で高性能なSLM開発に役立つ知見を提供します。