双方向関係推論と調整による多言語テキストから画像への人物検索

Multilingual Text-to-Image Person Retrieval via Bidirectional Relation Reasoning and Aligning

テキストから画像への人物検索（TIPR）は、テキスト記述を基に対象の人物を特定する技術です。しかし、従来の手法はモーダリティの違いに対処しきれず、英語中心のため多言語における適用が制限されています。本研究では、多言語TIPRタスクを提案し、大規模言語モデルを利用して初期翻訳を行い、ドメイン特化の知識を統合して精練します。新たに提案するBi-IRRA（Bidirectional Implicit Relation Reasoning and Aligning）フレームワークでは、双方向推論モジュールを通じて、画像とテキストのマスキング予測を行い、ローカル関係のモデリングを強化。加えて、多次元のグローバルアライメントモジュールを統合し、モーダリティの異質性を橋渡しします。この方法は全ての多言語TIPRデータセットで最新の性能を達成しています。