翻訳の迷いとノイズ：実世界の表におけるVLMの失敗モードの深掘り

Lost in Translation and Noise: A Deep Dive into the Failure Modes of VLMs on Real-World Tables

本稿では、視覚的言語モデル（VLM）のパフォーマンスを実世界の表形式データにおいて評価するために、新たに提案されたベンチマーク「MirageTVQA」について述べています。従来の存在するデータセットは、主に英語でクリーンな形式の表を使用しており、実際の複雑さを捉えきれていません。MirageTVQAは、24言語で約60,000のQAペアを特徴とし、視覚的に不完全な表を含むことで、スキャンされた文書に特有のノイズをシミュレーションしています。この評価により、VLMが視覚ノイズに直面すると35％以上のパフォーマンス低下が見られ、推論能力が他言語に移行しないという「英語第一」のバイアスが示されました。最終的に、MirageTVQAは、表に関する推論のためのより堅牢なVLMモデルの進展を促進するための基準を提供します。