視覚的思考の忠実性について：測定と強化

最近の大規模な視覚-言語モデル（LVLM）は、強化学習による微調整（RFT）後に視覚・テキストの多モーダルな思考過程（MCoT）トレースを生成することができるが、視覚情報がしばしば不正確であり、それでも正しい答えを導くことができるため、MCoTの推論過程に忠実性が欠けていることが指摘されている。この研究では、視覚とテキストの思考が介入されると予測がどのように変化するかを測定し、意外にも視覚介入下では予測がほとんど変わらず、テキスト介入によって大きく変わることが示されている。この分析を通じて、現在のMCoTトレースにおける視覚情報が信頼性が低く、不十分であることが明らかになった。この問題に対処するために、十分かつ最小限の視覚要素を生成する新しい学習戦略「Sufficient-Component Cause Model（SCCM）」を提案し、実験結果もこの新手法の有効性を示している。