この記事では、Abstraction and Reasoning Corpus (ARC) が抽象的な推論の研究を促進するために設計されていることを述べています。一般的なアプローチでは、ARCを言語指向の問題として扱うことが多く、大規模言語モデルや反復的推論モデルを使用しています。しかし、ARCのパズルのようなタスクは本質的に視覚的であり、これまでの研究は視覚中心の視点からこの問題に取り組むことは稀でした。本研究では、ARCを視覚パラダイム内で定式化し、画像間変換問題として位置づけています。視覚的な先入観を取り入れるため、入力を自然画像のように処理できる「キャンバス」に表現し、標準的な視覚アーキテクチャ(特にVision Transformer)を用いて画像間マッピングを行います。VARCというフレームワークを提案し、ARC-1のベンチマークで60.4%の精度を達成し、既存の手法を大幅に上回りました。これは、先行する大規模言語モデルの結果とも競合し、平均的な人間のパフォーマンスに近づいています。