神経的不適合性を超えて：潜在意味整合性を通じて大規模言語モデルにおけるクロススケール知識伝達を容易にする

Beyond Neural Incompatibility: Easing Cross-Scale Knowledge Transfer in Large Language Models through Latent Semantic Alignment

本論文では、大規模言語モデル（LLM）の知識を異なるスケール間で効果的に伝達するための新しいアプローチを提案しています。従来の方法では、モデルのアーキテクチャやパラメータの違いにより、異なるスケールのLLM間での知識の再利用が制限されていました。著者らは、潜在空間における意味の整合性が、このクロススケール知識伝達の成功に不可欠であると指摘しています。具体的には、層間の知識伝達において層パラメータの直接使用ではなく、活性化をメディアとして活用する手法を採用しています。この新しいアプローチは、従来の手法に比べてより優れたモデルの動作整合性を実現し、評価によってその有効性が示されています。また、クロススケール知識伝達を容易にする要因についても考察がなされており、潜在意味整合性の本質に関する洞察が提供されています。