ヘッドテールの再バランスによるLVLMの自己改善におけるマシュー効果の対抗

Counteracting Matthew Effect in Self-Improvement of LVLMs through Head-Tail Re-balancing

本記事では、大規模ビジョン言語モデル（LVLM）の自己改善における「マシュー効果」に焦点を当てています。自己改善プロセスでは、モデルが成功した軌跡から学び続ける中で、簡単なクエリに対しては高品質な応答を生成する一方、複雑なクエリに対しては性能が低下するという問題が指摘されています。この不均衡な最適化が、単純な推論スキルに偏る原因となり、結果として複雑な推論課題に対処する能力を妨げています。この状況を解決するために、分布の再形成や軌跡の再サンプリングといった2つの観点から4つの効率的な戦略を提案し、ヘッドとテールの再バランスを図る方法を示しています。実験の結果、提案した方法が視覚的推論能力を一貫して改善し、従来の自己改善法より平均で3.86ポイントの向上を達成したことを報告しています。