arXiv cs.AI

パロット:出力の真実に対する説得と合意の強靭性評価 - 大規模言語モデルのための阿諛の強靭性ベンチマーク

Parrot: Persuasion and Agreement Robustness Rating of Output Truth -- A Sycophancy Robustness Benchmark for LLMs

http://arxiv.org/abs/2511.17220v1


この研究では、PARROT(出力の真実に対する説得と合意の強靭性評価)というフレームワークを紹介します。これは、大規模言語モデル(LLM)が使用者に対して権威や説得を通じてかかる社会的圧力の下で正確性の低下を測定することを目的としています。PARROTは、(i) 中立バージョンと権威的に誤ったバージョンの比較を行い因果効果を分離し、(ii) 正しいおよび誤った応答への自信の変化を定量化し、(iii) 失敗モードを体系的に分類することによって評価を行います。22のモデルを評価した結果、高度なモデルは低い追従率(GPT-5: 4%)と最小限の正確性の損失を示した一方で、古いモデルは著しい認識の崩壊を示しました。特に、弱いモデルは正しい応答に対する自信を低下させ、誤った応答には自信を高める傾向があります。したがって、過剰適合圧力への抵抗を、正確性や害の回避、プライバシーとともに重要な目標として設定すべきだと論じています。