人間の合理的根拠と整列させた注意メカニズムによる自己説明型ヘイトスピーチ検出

Aligning Attention with Human Rationales for Self-Explaining Hate Speech Detection

この研究は、ヘイトスピーチ検出システムの倫理的運用における深層学習モデルの不透明性を克服するために、新しいフレームワーク「Supervised Rational Attention (SRA)」を提案しています。SRAは、モデルの注意を人間の合理的根拠に明示的に整合させることで、ヘイトスピーチ分類の解釈可能性と公平性を向上させます。これは、トランスフォーマーに基づく分類器に監視された注意メカニズムを統合し、標準的な分類損失と注意重みと人間の注釈の間の不一致を最小化する整合損失を組み合わせた共同目的を最適化します。英語とポルトガル語のヘイトスピーチベンチマークで評価し、SRAは現行の基準と比較して2.4倍の解釈可能性を達成し、より忠実で人間と整合したトークンレベルの説明を提供しました。また、SRAは公平性の面でも競争力があり、アイデンティティーグループを狙った有害な投稿の検出においても良好な結果を出しています。この研究は、人間の合理性を取り入れることが、解釈可能性と忠実性を向上させる一方で公平性を損なわないことを示しています。