arXiv cs.LG

確実性の幻想: LLMにおける不確実性の定量化は曖昧さの下で失敗する

The Illusion of Certainty: Uncertainty quantification for LLMs fails under ambiguity

http://arxiv.org/abs/2511.04418v1


この記事では、大規模言語モデル(LLM)における不確実性の定量化(UQ)の重要性について考察されています。実世界の言語は本質的に曖昧であり、現在のUQ手法が曖昧さを考慮せずにタスクに対して評価されることが多いと指摘されています。著者たちは、既存の不確実性推定器が曖昧でないデータでは良好に動作する一方、曖昧なデータに対してはほぼランダムな性能に劣化することを示しています。この研究では、MAQAとAmbigQAという新しい曖昧な質問応答データセットが提案され、これらによって現行のUQ手法の限界が明らかにされます。特に、予測分布やモデルの内部表現を用いた推定が、曖昧さの中で基本的な制限を持つことが理論的に説明されています。この研究は、LLM用のUQ手法における重要な欠陥を浮き彫りにし、モデルの現行の枠組みを再考する必要性を促しています。