この論文では、知識の蒸留に起因するセキュリティリスクについて考察されています。特に、バックドアを持つ教師モデルからの知識蒸留の過程で、伝統的なバックドア技術が生徒モデルに移行しにくい理由を探求しています。これまでの方法は、実際の文脈での発生頻度が低いトリガートークンを選択しているため、効果的に移行できないと指摘しています。著者たちは新たなバックドア技術T-MTBを提案し、個々のトークンが予想される蒸留データセットでよく出現するように設計されたコンポジットバックドアトリガーを用いることで、バックドアを隠蔽しつつ移行可能にする手法を示しています。この技術を使い、2つの攻撃シナリオ(ジェイルブレイクとコンテンツ調整)および4つのモデルファミリーにわたる移行可能なバックドアのセキュリティリスクを広範囲にわたり調査しています。