arXiv cs.AI

ロジットベースの損失が特徴知識蒸留の効果を制限する

Logit-Based Losses Limit the Effectiveness of Feature Knowledge Distillation

http://arxiv.org/abs/2511.14981v1


本研究では、特徴知識蒸留(KD)において一般的に用いられるロジットベースの損失関数が、軽量な学生モデルへの教師モデルの知識転送の効果を制限していることが指摘されています。従来の手法と異なり、著者らはロジットベースの損失を使用せず、特徴ベースの損失のみを用いて学生モデルのバックボーンを訓練する新しいフレームワークを提案します。また、ラテン表現の幾何学に関する最新の発見を活用して、どの教師層が最も効果的な知識を提供するかを特定する知識品質指標も導入しています。実験では、複数の画像分類データセットにおいて、提案したKD手法が従来のアプローチに比べて最大15%のトップ1精度向上を達成したことが示されています。研究のコードは公開されており、今後の研究を促進するために利用可能です。