この記事では、現代のテキスト音声合成(TTS)システムが有害なコンテンツを生成する際の脅威について調査しています。特に、大型オーディオ言語モデル(LALM)を用いたシステムが、どのようにして有害な内容を含む音声を生成できるかを探求しています。この研究は、LALMの安全性が有害なプロンプトを拒否する一方で、従来の脱獄攻撃がTTSに適さないことを示し、TTSシステムからの悪用のリスクがあると警告しています。著者らは、「HARMGEN」と呼ばれる5つの攻撃手法を提示し、意味的隠蔽技術や音声モデーション技術を用いて有害コンテンツを注入する方法を明示しました。評価の結果、攻撃が生成される音声の有害性を著しく高め、音声ストリーミングプラットフォームの対策の脆弱性も浮き彫りにしました。この研究は、TTSの新たなリスク要因を強調し、効果的な防御策の必要性を指摘しています。