Bi-CoG: 二重一貫性誘導自己訓練による視覚言語モデルの向上

本稿では、視覚と言語のモデル（VLM）におけるラベル不足の問題に対処するための新しい手法「Bi-CoG（Bi-Consistency-Guided Self-Training）」を提案します。これまでの半教師あり学習の手法は、モデルバイアスやハイパーパラメータの感度の問題に悩まされていました。Bi-CoGでは、モデル間およびモデル内の一貫性を同時に活用し、高品質かつ低バイアスの擬似ラベルを作成することで、これらの制約を克服します。また、エラーを意識した動的な擬似ラベル割り当て戦略を採用することで、モデルの性能を向上させることを目指します。14のデータセットにおける実験結果は、Bi-CoGが既存の手法と比較して一貫して显著な性能向上を達成することを示しています。