分布に基づくテンソル分解による畳み込みニューラルネットワークの圧縮

Distribution-Aware Tensor Decomposition for Compression of Convolutional Neural Networks

この研究では、畳み込みニューラルネットワーク（CNN）の圧縮手法として、テンソル化と低ランク表現に焦点を当てています。従来のアプローチが重み空間においてフロベニウスノルムのような等方性ノルムを最小化するのに対し、本手法では関数空間での誤差を測定するデータに基づいたノルムを用います。具体的には、層の出力分布の変化を最小化することを目指し、圧縮された重みと元の重みとの差を評価します。また、Tucker-2とCPDという二つのテンソル分解に対して新たな交互最小二乗アルゴリズムを提案し、従来の圧縮手法とは異なり、ファインチューニングなしで競争力のある精度を達成できることを示しています。実験では、ResNetやGoogLeNetなど複数のCNNアーキテクチャに対して、その利点が確認されています。さらに元データセットが利用できない場合でも、小さな精度低下でノルムを移行できる点が挙げられます。