LLMと人間の潜在的バイアスを評価するための単語連想ネットワークの方法論

A word association network methodology for evaluating implicit biases in LLMs compared to humans

この記事では、大規模言語モデル（LLMs）が私たちの生活にますます溶け込んでいる中で、彼らの持つ社会的バイアスが重要な問題として浮かび上がっています。そのバイアスは通常明示的ではなく暗黙的であるため、LLMsの知識表現を評価する方法が必要です。著者たちは、LLMsが生成する単語連想ネットワークを用いて、暗黙的なバイアスを評価する新しい方法論を提案しています。これにより、定量的および定性的なバイアスの評価が可能となり、LLMsと人間を直接比較することができます。この記事では、性別、宗教、民族性、性的指向、政治的立場に関する社会的バイアスの調査を行った結果、LLMsと人間のバイアスの収束と相違点が明らかになったことが報告されています。さらに、この方法論は、複数のLLMと人間のバイアスを評価し比較するための体系的でスケーラブルなフレームワークを提供することを目指しています。