arXiv cs.AI

EchoFake: 実用的な音声ディープフェイク検出のためのリプレイ認識データセット

EchoFake: A Replay-Aware Dataset for Practical Speech Deepfake Detection

http://arxiv.org/abs/2510.19414v1


近年、音声ディープフェイクの増加が問題視されており、特に電話詐欺やアイデンティティ盗難などの現実のシナリオでの影響が懸念されています。従来のアンチスプーフィングシステムは、実験室で生成された合成音声には高い性能を示すものの、物理的なリプレイ攻撃には弱いことが多いことがわかりました。本研究では、13,000人以上のスピーカーからの120時間以上の音声を含むリプレイ認識データセット『EchoFake』を提案します。このデータセットは、ゼロショットの音声合成と物理的なリプレイ録音が組み合わされています。さらに、3つのベースライン検出モデルを評価し、EchoFakeで訓練されたモデルが他のデータセットに対しても低い平均EERを達成することを示しました。実践的な課題を導入することで、スプーフィング検出手法の進展に向けた現実的な基盤を提供します。