RealDPO: 本物か偽物か、それが選好である

この記事では、動画生成モデルの新しいアプローチ「RealDPO」について紹介しています。従来のモデルは自然で滑らかな動きを生成するのが難しいため、RealDPOは実世界のデータを積極的なサンプルとして利用し、選好学習を行うことで動作合成の精度を向上させます。特に、Direct Preference Optimization（DPO）を用い、特別に設計された損失関数によって動作のリアリティを向上させる点が特徴です。RealDPOは、実際の動画と誤ったモデル出力を対比させることで、逐次的な自己修正を行い、動作の質を高めます。また、RealAction-5Kという高品質な動画データセットも提案され、日常活動を豊かに表現しています。実験によって、RealDPOが動画の質、テキストの整合性、動作のリアリティにおいて最新の技術を超える成果を示すことが明らかになりました。