高忠実度オープンドメインのビデオからオーディオへの生成のためのモデル指導型二重役割整合

Model-Guided Dual-Role Alignment for High-Fidelity Open-Domain Video-to-Audio Generation

本稿では、MGAudioと呼ばれる新しいフロー型フレームワークを提案し、オープンドメインのビデオからオーディオへの生成技術を発展させました。MGAudioは、生成モデルが自己指導できるように設計された専用のトレーニング目的を取り入れ、ビデオに基づくオーディオ生成を行います。このフレームワークは、拡張可能なフロー型トランスフォーマモデル、オーディオとビジュアルのエンコーダが条件付きモジュールおよび特徴整合器として機能する二重役割整合メカニズム、そして交差モーダル調和とオーディオのリアリズムを向上させるモデル指導目標の3つの主要コンポーネントを統合しています。MGAudioは、VGGSoundデータセットでの性能を向上させ、最先端の成果を達成しました。これにより、従来の手法と比較して、条件付きビデオからオーディオへの生成のための強力でスケーラブルなパラダイムであることが明らかになりました。