大規模言語モデルにおける暗黙的バイアスと明示的バイアスの包括的研究

本研究では、大規模言語モデル（LLM）が訓練データセットから引き継ぐ暗黙的及び明示的なバイアスを特定し、その緩和策を模索しています。これにより、公平な出力を保証し、有害なステレオタイプや誤情報を助長しないことが重視されています。StereoSetやCrowSPairsといった特定のバイアス評価基準を通じて、BERTやGPT 3.5のような複数の生成モデルにおけるバイアスの存在を評価しました。様々な社会的バイアス（性別、人種、職業、宗教）の識別のための自動化されたバイアス識別フレームワークを提案し、明示的および暗黙的なバイアスを検出するための2段階アプローチを採用しました。結果として、微調整されたモデルは性別バイアスには苦戦しましたが、人種バイアスの識別には優れた性能を示しました。キーワードに過度に依存する傾向も明らかになり、モデル性能向上のためにデータ拡張やプロンプト技術を使った微調整戦略を適用した結果、暗黙のバイアス評価基準において最大20%の性能向上を達成しました。