大規模言語モデルの整合性における多元的価値の実現は、安全性、包括性、およびモデルの行動におけるトレードオフを明らかにする

Operationalizing Pluralistic Values in Large Language Model Alignment Reveals Trade-offs in Safety, Inclusivity, and Model Behavior

この研究は、大規模言語モデル（LLM）の整合性において多元的価値がどのように影響を与えるかを調査しています。具体的には、米国とドイツの参加者から収集したデータ（1095名、27375件の評価）を使用し、LLMの応答を毒性、感情認識、感受性、偏見、助けの度合いの5つの次元で評価しました。結果から、性別や文化的背景による評価の違いが明らかになり、例えば男性参加者は女性よりも18%毒性が低いと評価し、保守派および黒人参加者はそれぞれ27.9%と44%高い感情認識を示しました。異なるグループの好みに基づいてモデルを微調整したところ、独自の行動様式が観察されました。技術的な設計選択が発表した結果も重要であり、評価者の意見の不一致を保つことが、過半数投票より約53%の毒性削減を達成しました。この研究は、専門家とユーザーの信号をいかにバランスさせるべきかという重要な課題に対する第一歩となります。