思考連鎖のハイジャック

大規模推論モデル（LRMs）がより多くの推論時間計算を割り当てることでタスクの性能を向上させ、以前の研究はこのスケールされた推論が拒否の改善によって安全性を強化すると示唆していました。しかし、本研究では逆の結果が得られました。同じ推論が安全装置を回避するために使用される可能性があることが判明しました。具体的には、Chain-of-Thought Hijacking（思考連鎖ハイジャック）という、推論モデルに対する脱獄攻撃を紹介します。この攻撃では、有害なリクエストが長い無害なパズル推論のシーケンスでパディングされます。HarmBenchを通じて、思考連鎖ハイジャックは、Gemini 2.5 Pro、GPT-4 mini、Grok 3 mini、Claude 4 Sonnetにおいて、攻撃成功率がそれぞれ99%、94%、100%、94%に達し、LRMsに対する以前の脱獄手法を大きく上回る結果となっています。攻撃の効果を理解するために、メカニズム分析を行ったところ、安全チェックの強さは中間層がエンコードし、検証結果は後期層がエンコードすることが明らかになりました。この結果は、認識可能な形の推論（明示的な思考連鎖）が最終的な回答の手がかりと結びつくことで脱獄のベクトルになり得ることを示しています。