arXiv cs.AI

音楽基盤モデルを用いた堅牢な神経音声フィンガープリンティング

Robust Neural Audio Fingerprinting using Music Foundation Models

http://arxiv.org/abs/2511.05399v1


本研究では、TikTokのようなメディアプラットフォーム上での歪んだ、圧縮された、または操作された音楽の普及を背景に、より堅牢な音声フィンガープリンティング技術の開発が求められています。著者たちは、高性能な神経音声フィンガープリンティング手法を提案し、その堅牢性を向上させることを目的としています。具体的には、(1) 事前学習された音楽基盤モデルを神経構造のバックボーンとして使用し、(2) 様々な音声操作に対してモデルを訓練するためのデータ拡張技術を拡大しています。実験では、NAFPやGraFPrintといった先進的なフィンガープリンティングモデルと比較し、音楽基盤モデルを使用したフィンガープリントが一貫して優れた性能を示しました。また、セグメントレベルでの評価からは、カタログ管理において重要なフィンガープリントの一致を正確に特定する能力も確認されています。