本論文では、視覚的注意推論(VAR)という新しいフレームワークを提案し、複雑なタスクにおける大規模マルチモーダル言語モデル(MLLM)の限界を克服します。VARは、推論過程を追跡可能な証拠の基盤と検索に基づく思考の連鎖生成の二段階に分解し、自己訂正のためのバックトラッキングメカニズムを導入しています。検索は、視覚入力に忠実に基づいていない出力を罰する多面的な報酬関数によって導かれます。提案された検索戦略の理論的分析により、高い確率で正しい解決策を見つけられることが示され、実験結果では、VAR-7Bモデルが従来のオープンソースモデルを上回る成果を挙げ、著名なプロプライエタリシステムと競争できる性能を示しています。