Ovi：音声と映像生成のためのツインバックボーンクロスモーダル融合

Oviは、テキストやテキスト+画像を入力として、映像と音声のコンテンツを同時に生成するモデルです。高品質なオーディオと映像を同期して生成する機能を持ち、5Bオーディオ分野を初めから設計・訓練しました。動画は5秒間で24FPS、720×720の領域で生成され、多様なアスペクト比に対応しています。また、960×960や他の高解像度での出力も可能で、時間的・空間的一貫性を維持しながら自然な表現を実現します。Oviには、さまざまな入力形式をサポートする機能があり、オープンソースとしてリリースされています。今後の開発計画には、より高解像度データを用いたファインチューニングや新機能の追加が含まれています。