良いGRACEにおける原則的な教師選択による知識蒸留

知識蒸留は、大規模「教師」言語モデルが生成したデータを使用して、より小型の能力のある「生徒」モデルを育成する効率的な戦略です。しかし、特定の生徒-タスクの組み合わせに最適な教師を選定するには、試行錯誤が必要でコストがかかります。本論文では、GRACEと呼ばれる軽量スコアを提案し、教師が生徒モデルのポストトレーニングにどれだけ効果的かを定量化する方法を示します。GRACEは、生徒の勾配の分布特性を測定するもので、検証者や教師の内部データを必要としません。情報理論的な観点から、GRACEは勾配ベースのアルゴリズムの留一つ安定性と関連し、蒸留された生徒の一般化性能を制御します。実験では、GRACEを選定した教師で生徒を訓練することで、最適教師を無造作に使用する場合よりも性能を最大7.4%向上させることが確認されました。さらに、GRACEは蒸留時の重要な設計選択に関する指針を提供します。この研究は、特定の生徒に対して効果的な教師を効率的に特定する方法を示しています。