本稿では、BLEUやCIDEr、VQAスコアなどの現在の最先端メトリックが、特にドメイン固有またはコンテクスト依存のシナリオにおいて意味的または構造的正確性を捕捉できない点を指摘しています。この問題を解決するために、著者らは大規模な言語モデルを用いた理由付け、知識ベースのマッピング、および視覚と言語のモデルを組み合わせた物理制約付きマルチモーダルデータ評価(PCMDE)メトリックを提案しています。提案されたアーキテクチャは、(1)オブジェクト検出とVLMを通じての空間的および意味的情報の特徴抽出、(2)適応コンポーネントレベル検証のための信頼度加重コンポーネント融合、(3)大規模な言語モデルを用いた構造的および関係的制約(整列、位置、一貫性など)の強制による物理ガイド付き推論という三つの主要なステージから構成されています。この研究は、マルチモーダル合成画像の評価を新たな次元へと引き上げることを目指しています。