Kaleido: オープンソースのマルチサブジェクト参照動画生成モデル

Kaleidoは、複数の参照画像を元に一貫した動画を生成する主題から動画（S2V）生成フレームワークです。従来のS2V生成モデルは、複数の主題の一貫性を保つことや背景の分離が不十分であり、特に多画像条件下での参照忠実度と意味の漂流が問題となります。この課題を克服するため、Kaleidoは多国籍なデータ構築パイプラインを提案しており、低品質サンプルのフィルタリングや多様なデータ合成により一貫性を保ったトレーニングデータを生成します。また、クオリティを保ちより安定した多画像統合を可能にするために、参照画像用の位置エンコーディング手法「Reference Rotary Positional Encoding」を導入しています。多数のベンチマークによる実験の結果、Kaleidoは一貫性、忠実度、一般化の面で従来の手法を大幅に上回ることが示されています。