arXiv cs.AI

高忠実度オープンドメインのビデオからオーディオへの生成のためのモデル指導型二重役割整合

Model-Guided Dual-Role Alignment for High-Fidelity Open-Domain Video-to-Audio Generation

http://arxiv.org/abs/2510.24103v1


本稿では、MGAudioと呼ばれる新しいフロー型フレームワークを提案し、オープンドメインのビデオからオーディオへの生成技術を発展させました。MGAudioは、生成モデルが自己指導できるように設計された専用のトレーニング目的を取り入れ、ビデオに基づくオーディオ生成を行います。このフレームワークは、拡張可能なフロー型トランスフォーマモデル、オーディオとビジュアルのエンコーダが条件付きモジュールおよび特徴整合器として機能する二重役割整合メカニズム、そして交差モーダル調和とオーディオのリアリズムを向上させるモデル指導目標の3つの主要コンポーネントを統合しています。MGAudioは、VGGSoundデータセットでの性能を向上させ、最先端の成果を達成しました。これにより、従来の手法と比較して、条件付きビデオからオーディオへの生成のための強力でスケーラブルなパラダイムであることが明らかになりました。