インドは約15億人と120以上の主要言語を持つ多様な地域であり、マルチリンガルなビジョンと言語モデル(VLM)の評価方法が重要です。今回、著者らはヒンディー語とテルグ語のVLMを評価するためのフレームワークを提案し、「HinTel-AlignBench」と呼ばれるベンチマークを生成しました。このベンチマークは、英語と連携したヒンディー語・テルグ語のデータセットを含みます。主な貢献は、(1) バックトランスレーションと人間による検証を組み合わせたデータセット作成フレームワークの構築、(2) ヒンディー語とテルグ語に特化した視覚と言語の評価基準の提供、(3) 様々なモデルの性能分析です。研究結果により、ほとんどのモデルで英語に対するインド言語での性能が低下し、改善が必要な分野が明らかになりました。