CARMA: アラビア語のための包括的自動注釈付きRedditメンタルヘルスデータセット

CARMA: Comprehensive Automatically-annotated Reddit Mental Health Dataset for Arabic

本記事では、アラビア語話者を対象にしたメンタルヘルスの早期検出を目的としたデータセット「CARMA」を紹介しています。このデータセットは、大規模なアラビア語のReddit投稿を自動的に注釈し、主に不安、孤独症、うつ病といった６つのメンタルヘルスの状態を扱っています。これまでの研究が英語に偏っていたため、アラビア語におけるデータセットは不足していましたが、CARMAはそのスケールと多様性で既存リソースを上回ります。著者たちは、このデータセットを用いて、メンタルヘルス条件に特有の言語的マーカーについての質的および量的分析を実施しています。さらに、浅い分類器から大規模言語モデルに至るまで様々なモデルを用いた分類実験を行い、アラビア語がまだ不足しているメンタルヘルス検出の進展に寄与する可能性を示しています。