BBox DocVQA: 文書視覚質問応答における推論を強化するための大規模バウンディングボックスに基づくデータセット

BBox DocVQA: A Large Scale Bounding Box Grounded Dataset for Enhancing Reasoning in Document Visual Question Answer

本論文では、文書視覚質問応答（DocVQA）タスクの進展を目的とした新しいデータセット「BBox DocVQA」を提案します。従来のDocVQAデータセットはページ単位に制限され、細かな空間的基盤が不足しているため、視覚言語モデル（VLM）の解釈能力や推論能力に制約を与えていました。BBox DocVQAは、3.6Kの多様な文書と32Kの質問応答ペアを含む大規模データセットであり、バウンディングボックスで明示的に位置づけられたQAインスタンスを提供します。このデータセットは、空間的推論と証拠の位置特定を強化することを目的としており、特に自動化された構築パイプラインが採用されています。結果として、BBox DocVQAを用いた複数の最先端VLMのベンチマークが実施され、空間的基盤と推論精度における課題が明らかになっています。データセットは一般公開され、今後の視覚言語推論における研究を促進します。