見た目は正しいが理由は間違っている：テキストから画像生成における構成の忠実性

この記事では、現在のテキストから画像への生成モデルのアーキテクチャに存在する根本的な欠陥、すなわち論理的な構成を扱う能力の欠如について調査しています。特に、否定、個数、空間関係の三つの基本的な要素において、単独では正確なモデルがこの要素を組み合わせると急激に性能が低下することが明らかになりました。この失敗は、訓練データの否定の欠如、連続的注意アーキテクチャの不適切さ、評価指標が視覚的な妥当性を重視することに起因しています。著者らは、現行の解決策や単純なスケーリングではこのギャップを埋めることができず、真の構成能力を達成するには根本的な表現や推論の進展が必要であると結論づけています。