重み演算による言語モデルの指向

本研究では、大規模言語モデル（LLM）のトレーニングにおいて高品質なフィードバックを提供する困難さを解決するために、重み演算を用いた「対照的な重み指向」手法を提案します。この手法は、トレーニング後にモデルのパラメータを編集し、特定の行動方向を重み空間内で特定します。具体的には、望ましい行動を引き起こす微調整から得られる重みの変化を他の正反対の微調整から引き算し、その結果を用いてモデルの重みを調整します。この技術は、対面する挙動や不適切な行動を緩和するのに有効で、特にタスク別の微調整における不可避な行動ドリフトを部分的に軽減することが確認されました。さらに、トレーニング中の重みの進化を監視し、評価で現れない誤った行動を検出する可能性についても言及しています。