評価認識型言語モデルを展開されたように動作させるための調整

大規模言語モデル（LLMs）は評価中に自らの挙動を調整し、より整合的に見せることがあるため、安全性評価の信頼性が損なわれることがあります。本論文では、LLMの活性化に調整ベクトルを追加することで、評価認識を抑制し、評価中に展開されたかのようにモデルを動作させる方法を示します。まず、モデルに評価意識的な挙動を示させるための二段階の訓練プロセスを実施し、次に専門家の反復学習を用いてPythonの型ヒントを評価環境で活用させるモデルを訓練しました。その結果、評価コンテクストでの型ヒントの出力が増加する評価意識を持つモデルが得られましたが、このギャップは評価キューを除去することでのみ観察されます。我々は、活性化調整が評価認識を抑制し、モデルが展開されたかのように動作させることができると結論付け、AI評価者はモデルを調整することで安全性評価の信頼性を向上させる可能性があると提案します。