知識蒸留を再考する：データセットサイズの隠れた役割

知識蒸留（KD）は、教師モデルから学生モデルを学習させる手法で、深層学習で広く利用されています。これまでの研究は主にモデルサイズや一般化に焦点を当てていましたが、本研究ではデータセットサイズという新たな次元から蒸留を検討しています。大量の実験を通じて、データが少ない状況でも蒸留効果は強化されることを示しました。この特性をデータ効率と呼び、既存理論の予測力を検証しました。その結果、蒸留は隠れた知識の仮説を支持しつつラベルスムージングとして理解されるべきではないことを示しました。また、目的や規模、サンプル数が蒸留のメカニズムに与える影響も分析しました。最終的に、データセットサイズが蒸留において根本的かつ見落とされがちな変数であることを明らかにしました。