arXiv cs.AI

オープンモデルにおけるアライメントデータの抽出

Extracting alignment data in open models

http://arxiv.org/abs/2510.18554v1


この記事では、ポストトレーニングモデルからアライメントトレーニングデータを抽出する方法を示しています。このプロセスは、長文の推論、安全性、指示の遵守、数学的能力などの改善に役立ちます。従来、データ抽出の成功は文字列の一致によって測定されていましたが、著者たちは埋め込みモデルの方が目的に適していると主張しています。高品質な埋め込みモデルによって測定される距離は、意味的な類似性をより正確に識別できるため、従来の手法よりも強力です。実際、著者たちはおおよその文字列の一致が、データ抽出量を過小評価することを発見しました。また、ポストトレーニング段階で使用されたトレーニングデータがモデルから容易に再現されることを示し、これを利用して基礎モデルを再訓練し、元のパフォーマンスの意味のある部分を回復することが可能であると述べています。最後に、蒸留手法について、モデルがトレーニングセットの側面を再現することから、元のデータセットに間接的に訓練させているとして、新たなリスクを浮き彫りにしています。