画像およびテキストに基づく人物再識別のための階層的プロンプト学習

本研究では、視覚的なクエリ（画像から画像への照合：I2I）またはテキストによる説明（テキストから画像への照合：T2I）を基にした人物再識別（ReID）の新しい手法、階層的プロンプト学習（HPL）を提案します。従来の手法はこれらの茨入に対して別々に取り組んでいましたが、本手法はタスクを統一したフレームワークで最適化します。具体的には、タスクに応じたルーティングを行う双分類トークンを用いたトランスフォーマーを導入し、同時に特徴ルーティングを行います。また、階層的プロンプト生成スキームを開発し、インスタンス特有のセマンティクスを持つ擬似テキストトークンを使用します。さらに、クロスマodalプロンプト正則化戦略により、セマンティクスの整合性を向上させます。多くのReIDベンチマークにおいて、我々の手法がI2IおよびT2Iタスクの両方で最先端の性能を達成することが実証されました。