差別化方向介入：LLM安全アラインメント回避のためのフレームワーク

Differentiated Directional Intervention A Framework for Evading LLM Safety Alignment

本稿では、Large Language Models（LLMs）の安全アラインメントにおける拒否メカニズムを単一の線形方向としてモデル化する従来のアプローチを批判し、2つの機能的に異なる神経過程—危害の検出と拒否の実行—に分解する。具体的には、危害検出方向と拒否実行方向という2つのベクトルに着目し、新たなホワイトボックスフレームワーク「差別化双方向介入（DBDI）」を提案。DBDIは拒否実行方向に適応的な投影無効化を行い、危害検出方向を直接的に操作することで、重要なレイヤーにおける安全アラインメントを中和する。広範な実験により、DBDIは著名な脱獄手法に対しても優れた成果を示し、Llama-2などのモデルに対して最大97.88%の攻撃成功率を達成した。この研究は、LLM安全アラインメントの深い理解へと新たな道を開くものである。