arXiv cs.LG

音声・視覚ディープフェイク検出のための自己教師付き表現の調査

Investigating self-supervised representations for audio-visual deepfake detection

http://arxiv.org/abs/2511.17181v1


この記事では、音声・視覚ディープフェイク検出における自己教師付き表現の可能性を探る研究が紹介されています。従来の技術はこれらの特徴を孤立させたり複雑なアーキテクチャの中に埋め込んで使われていましたが、本研究ではこれらの特徴を音声、映像、マルチモーダルの各領域で体系的に評価しています。評価の際に、検出効果、编码情報の解釈性、クロスモーダルの補完性という三つの主要な次元が考慮され、自己教師付き特徴の大半がディープフェイクに関連する情報を捉え、これが補完的であることが確認されました。しかし、データセット間での一般化には失敗しており、その原因はデータセットの特性に起因していると考えられます。本研究は、自己教師付き表現が意味のあるパターンを学習する可能性を示しつつも、堅牢なクロスドメイン性能を実現することが依然として難しいという基本的な課題も明らかにしています。