パラメトリック知識の観点から見る大規模言語モデルにおけるネガティブバイアスの多面的分析

A Multifaceted Analysis of Negative Bias in Large Language Models through the Lens of Parametric Knowledge

この記事では、大規模言語モデル（LLM）が二者択一のタスクでネガティブな応答を過剰に生成する傾向、すなわちネガティブバイアスについての多面的な分析が行われています。従来の研究では、ネガティブバイアスを引き起こすネガティブアテンションヘッドの検出に焦点が当てられてきましたが、その原因となる詳細な要因は未だに十分に探求されていません。本研究では、LLMが提供されたプロンプトの形式によって応答が大きく影響される「形式レベルのネガティブバイアス」を示しています。また、評価セットの構築手法を提案し、モデルのパラメトリック知識に基づいてデータセットを正しい、誤った、不十分な関連知識の3つに分類しています。この評価セットの分析により、LLMが十分な知識を欠く場合にネガティブな応答を生成する傾向があるショートカット行動を特定し、様々なプロンプトシナリオでのネガティブバイアスの変化も検討されています。研究は、関連する文脈を提供し「わからない」選択肢を提示することでバイアスが軽減される傾向がある一方で、連鎖思考プロンプトがバイアスを強めることを明らかにしています。