本論文では、視覚と言語のモデル(VLM)の文化的および多言語理解を評価するための新しいベンチマーク「IndicVisionBench」を提案しています。このベンチマークは、インド亜大陸に焦点を当て、英語と10のインド言語を対象にした大規模なもので、光学文字認識(OCR)、マルチモーダル機械翻訳(MMT)、視覚的質問応答(VQA)の3つのマルチモーダルタスクをカバーしています。13の文化的に基づくトピックで、約5,000枚の画像と37,000以上の質問応答ペアが含まれています。また、10言語の注釈からなる対となる平行コーパスも提供し、VLMにおける文化的・言語的偏りの分析の新たな資源となります。研究では、さまざまな8つのモデルを評価し、現在のVLMの文化的多様性における限界が明らかになりました。これにより、より包括的なマルチモーダル研究の道を開くことが期待されています。