arXiv cs.AI

視覚的に考え、テキストで推論する:ARCにおける視覚と言語の相乗効果

Think Visually, Reason Textually: Vision-Language Synergy in ARC

http://arxiv.org/abs/2511.15703v1


本記事では、最前線の基盤モデルに対する抽象的推論の難しさについて論じており、特にARC-AGI(人工一般知能のための抽象化と推論コーパス)を用いた実験が紹介されています。これらのモデルは、わずかな例から構造化された変換ルールを推測する能力に欠けており、これが人間の知性の重要な特徴であることを指摘しています。研究者たちは、ARC-AGIを単なるテキスト推論タスクとして扱う多くの手法に対し、人間が視覚的抽象を重視している点を見落としていると批判しています。また、視覚と言語の補完的な強さを活かす新しい戦略として「視覚言語相乗効果推論(VLSR)」と「モダリティ切り替え自己修正(MSSC)」を提案し、このアプローチが多様なARC-AGIタスクにおいてテキストのみの基準に対し最大4.33%の性能向上をもたらすことを示しました。これにより、視覚的抽象と論理的推論の統一が、人間のような知能の達成に向けた重要な一歩であることが示唆されています。