この記事では、思考チェーン(CoT)出力の監視可能性を、モデルの内部的な推論の透明性(誠実性)と必要な情報の明示さ(冗長性)を通じて評価する方法を提案しています。CoTを通じてモデルの推論過程を追跡することで、安全性や適合性の問題を識別する手助けになりますが、誠実性を測定することは容易ではありません。著者たちは、入力に手がかりを追加した際にモデルの答えが変わる場合だけでなく、答えを維持する場合についても考慮し、冗長性を新たに導入しました。この評価方法により、誠実性と冗長性を1つのスコアに組み合わせ、モデルの外部的な「作業メモリ」としての性能を示すことができます。研究では、指示チューニングされたモデルや推論モデルの評価を行い、重要な要素を省略した場合に信頼性が保持されつつも監視が難しい点を指摘しています。