この論文では、コードのトランスフォーマーベースの言語モデルにおける知識蒸留の問題点を探ります。従来の手法では、生徒モデルが教師モデルの予測挙動や内部表現をどれほど深く模倣しているかは未検証であり、従来の精度に基づく評価方法では表面的な孤立した視点しか提供できません。実験により、生徒モデルが教師モデルを十分に模倣せず、最大285%の性能低下を引き起こすことが確認されました。この問題に対処するため、著者たちはMetaCompressという変容的テストフレームワークを提案し、教師モデルと生徒モデルの出力を行動保存的変容関係のセットに基づき比較します。メタコンプレスを使い、三つの異なる知識蒸留手法を通じて圧縮された人気の言語モデルを評価したところ、生徒モデル間で最大62%の行動の不一致が特定されました。この研究は、知識蒸留パイプライン内での行動の忠実性評価の重要性を強調し、圧縮言語モデルのテストの実用的な枠組みとしてMetaCompressを確立します。