arXiv cs.AI

BhashaBench V1: インディックドメインの包括的ベンチマーク

BhashaBench V1: A Comprehensive Benchmark for the Quadrant of Indic Domains

http://arxiv.org/abs/2510.25409v1


BhashaBench V1は、インドに特化したドメイン評価の必要性に応えるために開発された初の多言語ドメイン特化型ベンチマークです。74,166の質問と回答のペアを含み、その内訳は52,494が英語、21,672がヒンディー語です。主要な分野は農業、法律、金融、アーユルヴェーダの4つで、90以上のサブドメイン、500以上のトピックをカバーしています。このデータセットは、さまざまな大規模言語モデル(LLM)の性能評価に利用され、特にリソースが限られた分野での大きなパフォーマンスギャップが明らかになりました。たとえば、法律分野では76.49%の精度が達成される一方で、アーユルヴェーダでは59.74%に留まっています。全体として、英語のコンテンツに対する方がパフォーマンスが良好な傾向があります。このベンチマークは、インドの多様な知識ドメインにおけるモデルの能力を評価するための貴重なリソースを提供します。