ブラックボックスオントポリシー蒸留による大規模言語モデルの最適化

本稿では、ブラックボックス蒸留を用いて、内部のロジットやパラメータにアクセスせずに、教師モデルのテキスト出力から直接学習する生徒用の大規模言語モデル（LLM）の生成手法を提案する。新たに導入された生成的逆行蒸留（GAD）は、学生LLMを生成器として定義し、教師LLMの応答と学生の応答を区別する判別器を訓練することで、オンポリシーかつブラックボックスの蒸留を実現する。この方法では、判別器が学生モデルの報酬モデルとして機能し、安定した適応フィードバックを提供する。実験結果は、GADが従来の系列レベルの知識蒸留を上回ることを示しており、特にQwen2.5-14B-Instruct（学生モデル）はその教師モデルであるGPT-5-Chatと同等の性能を示した。これにより、GADがブラックボックスLLM蒸留の有望で効果的なパラダイムであることが確認された。