FoleyBench: ビデオから音声モデルのベンチマーク

FoleyBenchは、ビデオから音声生成（V2A）のための初の大規模ベンチマークです。この分野は映画のポストプロダクションやAR/VR、音のデザインにおいて重要性が増しており、特に画面上のアクションに同期したフォーリーサウンドエフェクトを作成する際に注目されています。従来の評価データセットと比べて、過去のデータでは74％が音声と映像の対応が不十分であり、音楽やスピーチに偏っています。FoleyBenchは、5,000の(ビデオ、真の音声、テキストキャプション)のトリプレットを含み、音響が画面上のイベントと因果的に結びついているため、精密なモデル評価が可能です。このデータセットは、自動化されたパイプラインを用いてYouTubeやVimeoに基づくインターネットの野生のビデオから構築されています。FoleyBenchに基づき、音質、映像との整合性、一貫性について複数の最先端V2Aモデルを評価しています。