T2T-VICL: 暗黙のテキスト駆動型VLMによるクロスタスク視覚インコンテキスト学習の境界を解き放つ

T2T-VICL: Unlocking the Boundaries of Cross-Task Visual In-Context Learning via Implicit Text-Driven VLMs

本論文では、視覚と言語を統合したモデル（VLM）を用いたクロスタスク視覚インコンテキスト学習（VICL）の可能性を探るために、T2T-VICLという完全協調型パイプラインを提案しています。この手法では、異なる低レベル視覚タスク間の違いを暗黙的に表す最適なテキストプロンプトを生成・選択するメカニズムを設計し、初のクロスタスクVICLデータセットを構築しています。さらに、知覚スコアに基づく推論と伝統的評価指標を組み合わせた新しい推論フレームワークを採用し、9つのクロスタスクシナリオでトップクラスの結果、10の追加シナリオでもセカンドクラスの成果を達成しました。これにより、VLM内でのクロスタスクVICLの境界が解き放たれました。