arXiv cs.AI

ハウサ語における性差別検出のためのデータセット作成とベースラインモデル

Dataset Creation and Baseline Models for Sexism Detection in Hausa

http://arxiv.org/abs/2510.27038v1


この記事では、ハウサ語における性差別を検出するための初のデータセットを紹介しています。性差別はジェンダーの不平等や社会的排除を助長するものであり、特に低リソース言語ではその表現や認識が文化的背景に影響されます。この研究では、地域コミュニティとの連携を通じてデータを収集し、質的コーディング及びデータ拡張を行いました。また、ネイティブスピーカー66人を対象に、日常会話における性差別の定義と表現を探る二段階のユーザー調査を実施しました。さらに、従来の機械学習分類器と事前学習済みの多言語モデルを使用して、ハウサ語での性差別検出の効果を評価しました。文化的ニュアンスを捉えることの難しさや、多くの誤検知が発生する傾向が明らかになりました。