arXiv cs.AI

コントラストと予測的潜在拡散ブリッジによる一般的モダリティ翻訳に向けて

Towards General Modality Translation with Contrastive and Predictive Latent Diffusion Bridge

http://arxiv.org/abs/2510.20819v1


本研究では、モダリティ翻訳(MT)に向けた新しい枠組みとして「潜在デノイジング拡散ブリッジモデル(LDDBM)」を提案しています。従来の拡散モデルは単一のモダリティ、例えば画像や音声のデータサンプリングには優れた結果を示しているものの、異なる感覚モダリティ間の情報翻訳には制約が多く、一般性に欠けていました。LDDBMは共通の潜在空間で動作し、次元の整合性を必要とせずに任意のモダリティ間の架け橋を学習します。コントラスト的整合性損失を導入することで、対になったサンプル間の意味的一貫性を強化し、ドメインに依存しないエンコーダ-デコーダアーキテクチャを設計しています。また、予測損失を通じてクロスドメイン翻訳の精度向上を図ることで、安定したトレーニングを実現。LDDBMは多様なMTタスクに対応し、その有効性を実験的に検証しました。