本記事では、生成用大規模言語モデル(LLM)を基盤としたエンドツーエンド(E2E)音声合成技術に対する防御策としてE2E-VGuardを提案しています。音声合成技術は日常生活を豊かにしていますが、音声クローン詐欺のような悪用が深刻なセキュリティリスクを引き起こしています。従来の防御策は、手動で注釈付けされたトランスクリプトに基づく合成器の保護を考慮していましたが、手動注釈の労力が問題です。そこで、E2Eシステムが自動音声認識(ASR)を利用してトランスクリプトを生成するケースにおいて、新たなセキュリティメカニズムが必要です。E2E-VGuardは、音色の保護や発音の妨害を防ぐために、エンコーダーのアンサンブルと特徴抽出器を使用します。また、精神音響モデルを組み込むことで、目立たない perturbation を実現しました。16のオープンソース音声合成器および3つの商用APIを評価し、E2E-VGuardのその効果を確認しました。