パラメータ空間の対称性を利用したLLMにおける推論スキルの転送

この記事では、大規模言語モデル（LLM）間でスキルを転送するための新しい技術について説明しています。タスク算術はスキル転送の有力な手法ですが、訓練中にモデルが分岐した場合に悪影響を受けることがあります。著者らは、Transformerアーキテクチャの固有の置換、回転、スケーリング対称性を利用してモデルのパラメータ空間を整列させ、この制限を克服します。特に、Grouped-Query Attention（GQA）やSwiGLU層に対してパラメータ空間の整列を適応させ、重みベースおよび活性化ベースのアプローチを試みました。この整列優先戦略を用いることで、推論を行わないモデルに高度な推論スキルを成功裏に転送できることを示しています。実験結果では、従来のタスク算術手法を上回る性能を発揮し、専門的なスキルの融合と転送を可能にする効果的なアプローチを提供しています。