arXiv cs.AI

自信の落ち込み: 人間と大型言語モデルの整合性における道徳的不確実性

Dropouts in Confidence: Moral Uncertainty in Human-LLM Alignment

http://arxiv.org/abs/2511.13290v1


本研究は、人間が直面する道徳的ジレンマにおける不確実性と、その影響をAIシステム、特に大型言語モデル(LLM)にどのように適用できるかを探求しています。具体的には、32種類のオープンソースモデルと9つの異なる道徳的次元を用い、クラシックなトロリー問題に対するモデルの応答を分析しました。研究結果は、モデル間の自信のばらつきが道徳的次元内のばらつきよりも大きいことを示しており、モデルのアーキテクチャや訓練方法が道徳的不確実性にどのように影響を与えるかを明らかにしています。また、自己信頼度を低下させることで人間とLLMの道徳的整合性を向上させる可能性も示唆されています。最終的には、道徳的に複雑なシナリオにおいて、モデル生成された判断と人間の好みをより良く整合させるための手法として、不確実性を意図的に調整することの重要性が強調されています。