本研究では、LLM(大規模言語モデル)の安全性と価値の整合性を確保するための新しいフレームワーク「MENTOR」を提案しています。従来のアプローチは、偏見や暴力といった明示的なリスクに焦点を当てていましたが、ドメイン特有の深い暗黙のリスクには対応できていませんでした。MENTORは、メタ認知に基づく自己評価ツールを導入し、LLMが自身の応答における価値の不整合を反省できるようにします。さらに、教育、金融、マネジメントに関する9,000のリスククエリデータセットを提供し、ドメイン特有のリスク識別を支援します。このフレームワークは、メタ認知の反省の結果に基づいて、補助的なルール知識グラフを動的に生成し、将来的な課題に対処するための一般化を促進します。実験結果から、MENTORはセマンティック攻撃の成功率を大幅に低下させることが示され、LLMの暗黙のリスク軽減に新たなレベルをもたらしました。