思考過程モニタリングに基づく安全ケースへの具体的なロードマップ

この記事では、AIシステムが危険な能力レベルに接近する中で、安全性を保証するための代替アプローチの必要性が提唱されています。著者ジュリアン・シュルツは、思考過程（CoT）モニタリングに基づく安全ケースを構築するためのロードマップを示し、この研究の agendaを概説しています。CoTモニタリングが制御と信頼性の安全性ケースをサポートする可能性を論じており、(1) モデルがCoTなしで危険な能力を持たないことを確認し、(2) CoTによって有効となる危険な能力がCoTモニタリングによって検出可能であることを保証するという二部構成の安全ケースを提案しています。また、モニタリングの脅威（ニューラリーズやエンコードされた推論）を三つの形（言語の変化、隠しメッセージ、異種推論）に分類し、その潜在的なドライバーを分析しています。最後に、非モニタブルな推論からモニタブルなCoTを抽出する可能性にも触れ、CoTモニタリングの安全ケースが実行可能であるかどうかを予測市場で評価する方法を示しています。