arXiv cs.AI

角度操作: 活性空間における回転による行動制御

Angular Steering: Behavior Control via Rotation in Activation Space

http://arxiv.org/abs/2510.26243v1


本稿では、大規模言語モデルにおける特定の行動を制御しつつ、その一般的な能力を保持するための課題に焦点を当てています。従来の操作手法は、活性と特徴の方向によって定義された二次元の部分空間に制約されているため、選択したパラメータに敏感であり、意図しない相互作用により無関係な特徴にも影響を及ぼす可能性があります。そこで、新たに提案されるのが「角度操作」という手法で、これは活性を固定の二次元部分空間内で回転させることによって行動を調整します。この手法により、拒絶や従順といった行動に対して連続的かつ細かな制御が可能となります。また、条件付きでターゲット機能に整列した活性のみを回転させる「適応型角度操作」を提案し、安定性と一貫性をさらに高めています。さまざまなモデルファミリーやサイズでの実験により、角度操作は、一般的な言語モデルのパフォーマンスを保持しつつ、確実な行動制御を達成していることが示されています。