著者はオープンモデルに基づく音声合成(TTS)技術の限界について考察しています。TTSのモデル評価を行う中で、Kokoroという優れたオープンモデルを見つけたものの、声のクローンができないため使用を断念。また、Fish Audioの新しいS1-miniモデルを試したが、感情のマーカーや長い休止をサポートしていなかったため期待外れでした。Chatterboxモデルは前のF5-TTSよりは良いものの、生成可能なキャラクター数が制限されており、1000文字以上では音声が不安定になることが多いと述べています。それにより、短い文ごとに分割して送信する必要があるとのこと。全体として、オープンソースのTTSモデルは進歩しているものの、依然として商用システムには及ばないと結論付けています。