多モーダル検索は、テキストや画像といった異なるモダリティから関連コンテンツを検索する手法であり、AI検索やコンテンツ制作などのアプリケーションを支えています。従来のセパレートエンコーダー手法が特定のモダリティ固有の埋め込みを相互対照学習で整列させる一方、最近のマルチモーダル大型言語モデル(MLLM)は、構成された入力を直接処理する統一エンコーダーを可能にします。しかし、従来の相互対照学習で訓練された統一エンコーダーは、モダリティのショートカットを学習しやすく、分布のシフトに対してロバスト性が低下する問題があります。本研究では、モダリティ構成認識フレームワークを提案し、マルチモーダル埋め込みがその単一モダリティの対になるものを上回ることを強制する「好み損失」と、マルチモーダル埋め込みをその単一部分から構成されたプロトタイプに整列させる「構成正則化目的」を導入します。実験により、分布外検索での向上が示され、モダリティ構成認識がMLLMsを用いたロバストな組合多モード検索のための有効な原理であることが確認されました。