トレーニング不要のマルチビュー画像編集のための結合拡散サンプリング

本稿では、事前にトレーニングされた2D画像編集モデルを用いたマルチビュー整合性のある画像編集を実現するための推論時拡散サンプリング手法を提案します。従来の2D画像編集モデルは、3Dシーンまたはオブジェクトのマルチビュー画像セットそれぞれに対して高品質な編集を独立して生成できますが、ビュー間の整合性を保つことができません。これに対処するため、我々は明示的な3D表現を最適化するアプローチに代わって、生成された2D画像列が事前にトレーニングされたマルチビュー画像分布に準拠するように制約する暗黙的な3D正則化アプローチを提案します。これは、結合拡散サンプリング原理を用いて実現され、2つのトラジェクトリを同時にサンプリングすることでマルチビュー整合性を強制します。このフレームワークの効果と一般性を、三つの異なるマルチビュー画像編集タスクで検証しており、さまざまなモデルアーキテクチャにおける適用可能性を示しています。