音声と表情に基づくブレンドシェイプの独立学習による3Dトーキングフェイスアニメーション

Learning Disentangled Speech- and Expression-Driven Blendshapes for 3D Talking Face Animation

この記事では、AI生成コンテンツの進展に伴い、リアルで表現力豊かな3D顔のアニメーションが求められている現状を反映し、音声と表情の両方から駆動される顔のアニメーションを効率的に生成する手法を提案しています。主な課題は、感情豊かな3Dトーキングフェイスのデータセットが不足していることで、これを解決するために、音声と感情を線形加法問題としてモデル化しています。具体的には、ニュートラルな表情のデータセットと表情シーケンスのデータセットを利用し、音声と感情に基づくブレンドシェイプを共同で学習します。新たに導入されたスパース制約損失により、2種類のブレンドシェイプ間の独立性が促進され、自然な表情と口の同期を実現しています。実験結果は、提案手法が感情表現を向上させ、既存方法と比べても優れた成果を示すことを実証しています。