本論文では、文書視覚質問応答(DocVQA)タスクの進展を目的とした新しいデータセット「BBox DocVQA」を提案します。従来のDocVQAデータセットはページ単位に制限され、細かな空間的基盤が不足しているため、視覚言語モデル(VLM)の解釈能力や推論能力に制約を与えていました。BBox DocVQAは、3.6Kの多様な文書と32Kの質問応答ペアを含む大規模データセットであり、バウンディングボックスで明示的に位置づけられたQAインスタンスを提供します。このデータセットは、空間的推論と証拠の位置特定を強化することを目的としており、特に自動化された構築パイプラインが採用されています。結果として、BBox DocVQAを用いた複数の最先端VLMのベンチマークが実施され、空間的基盤と推論精度における課題が明らかになっています。データセットは一般公開され、今後の視覚言語推論における研究を促進します。