この記事では、ニューラルオーディオコーデックを利用してオーディオを言語モデル(LLM)に統合する方法について詳しく説明しています。音声を理解するLLMは存在しますが、従来のテキストベースのモデルと比較して劣っており、その理由は音声データの処理がテキストよりも困難であるためです。具体的には、音声をより大きな離散的トークンに変換することで、モデルがそのトークンを予測し、最終的に音声として復元できるようにします。これにより、オーディオの予測精度を向上させることが可能です。また、簡単にテキストをトークン化する手法が確立されているのに対し、オーディオにはより複雑な処理が必要であることを指摘しています。最終的には、Mimiという新しいニューラルオーディオコーデックを開発し、それがさまざまなモデルに採用される様子も紹介されています。