本記事では、テキストから画像への研究において、アイデンティティに一貫性のある画像生成が重要な焦点となっていることを述べています。最近のモデルは参照アイデンティティに沿った画像生成で成功を収めていますが、同一人物の多様な画像を含む大規模なペアデータセットの不足が多くのアプローチを再現性ベースの学習に追いやっています。このため、モデルが自然な変化に対してアイデンティティを保持することが困難になり、画像が単純に参照顔を模倣してしまう「コピー・ペースト」という失敗モードを招くことがあります。本研究は、(1) 多人数シナリオに特化したペアデータセット「MultiID-2M」を構築し、(2) コピー・ペーストのアーチファクトやアイデンティティ忠実性と変動のトレードオフを定量化するベンチマークを紹介し、(3) 対比的アイデンティティ損失を利用した新しい学習パラダイムを提案しています。最終的に、提案する「WithAnyone」モデルは、コピー・ペーストの問題を軽減しつつ、高いアイデンティティ類似性を保つことが実証されました。