arXiv cs.AI

悪役を演じることに失敗した大規模言語モデルの限界

Too Good to be Bad: On the Failure of LLMs to Role-Play Villains

http://arxiv.org/abs/2511.04962v1


本記事では、最近の大規模言語モデル(LLMs)が創造的な生成やフィクションキャラクターのシミュレーションにおいて、特に悪役を演じる能力が不十分であることが論じられています。著者たちは、現代のLLMsの安全性に対する慎重な調整が、道徳的に曖昧または悪役的なキャラクターを真に演じることとの間に根本的な対立を引き起こすと考えています。新たに導入された「モラルロールプレイベンチマーク」は、道徳的整合性の4段階スケールを持つデータセットで、LLMsの評価を行った結果、キャラクターの道徳性が低下するにつれて役割演技の忠実度が一貫して減少することが示されました。また、モデルは安全原則に真っ向から対立する特性、例えば「欺瞞的」で「操作的」な特性に最も苦しむことが明らかになり、微妙な悪意の代わりに表面的な攻撃性を用いる傾向が見られました。この研究は、モデルの安全性と創造的な忠実度との間に存在する重要な緊張を浮き彫りにしています。