視覚的に豊かな文書における答えのない質問に対する視覚LLMの耐性のベンチマーキング

Benchmarking Visual LLMs Resilience to Unanswerable Questions on Visually Rich Documents

本研究では、視覚的に豊かな文書（VRD）に対する視覚的な大規模言語モデル（VLLM）の耐性に焦点を当てています。VLLMは、テキストと視覚要素を含む文書の理解を革新していますが、答えのない質問を検出する能力は課題として残されています。研究では、関連する概念の入れ替えや妥当な質問の形式によって生じる微妙な破損によって、答えがないとも考えられる質問に対するVLLMの堅牢性を評価します。VRD-UQAというベンチマークを導入し、VLLMがどれだけ答えのない質問を検出できるかを調査。12のモデルを用いた実験では、ページおよび文書レベルでの正確性、異なる破損タイプの影響、コンテキスト学習に基づく知識注入戦略の効果を分析しています。結果は、VLLMの限界を明らかにし、VRD-UQAが堅牢な文書VQAシステムの開発に役立つ評価フレームワークとして機能することを示しています。