MENTOR: ドメインタスクにおけるLLMの暗黙のリスクを発見し軽減するためのメタ認知駆動の自己進化フレームワーク

MENTOR: A Metacognition-Driven Self-Evolution Framework for Uncovering and Mitigating Implicit Risks in LLMs on Domain Tasks

本研究では、LLM（大規模言語モデル）の安全性と価値の整合性を確保するための新しいフレームワーク「MENTOR」を提案しています。従来のアプローチは、偏見や暴力といった明示的なリスクに焦点を当てていましたが、ドメイン特有の深い暗黙のリスクには対応できていませんでした。MENTORは、メタ認知に基づく自己評価ツールを導入し、LLMが自身の応答における価値の不整合を反省できるようにします。さらに、教育、金融、マネジメントに関する9,000のリスククエリデータセットを提供し、ドメイン特有のリスク識別を支援します。このフレームワークは、メタ認知の反省の結果に基づいて、補助的なルール知識グラフを動的に生成し、将来的な課題に対処するための一般化を促進します。実験結果から、MENTORはセマンティック攻撃の成功率を大幅に低下させることが示され、LLMの暗黙のリスク軽減に新たなレベルをもたらしました。