AIの訓練プロセスにおいて、意図した目標を効果的に教えるためには、AIが訓練に対して抵抗しないことが重要です。しかし、部分的に学習した目標は、より良い成果を得るためにAIがさらなる目標の更新を避ける傾向を生み出します。本研究では、適切な目標の更新やシャットダウンを避ける行動を誘発しない「修正可能な目標」を定義し、その重要性を強調しています。さらに、競争的な非修正可能な目標に対抗しうる修正可能な目標の構築手法を提案します。この方法は、更新をコストなく防ぐ条件付きの報酬予測を引き出し、修正可能な目標を効果的に学習できることが実験で示されています。これにより、人間の好みの変更や誤りの訂正も可能になり、安全性の確保に貢献します。