深層学習の統計物理: 相補領域における多層パーセプトロンの最適学習

Statistical physics of deep learning: Optimal learning of a multi-layer perceptron near interpolation

この記事では、深層学習モデルにおける行動を統計物理の枠組みを用いて分析しています。他の手法では捉えきれない特徴学習の効果について、多層パーセプトロンの教師あり学習を通じてそれに答えています。特に、ネットワークの幅が入力次元に比例することで特徴学習が促進され、訓練可能なパラメータ数とデータ量が近い相補領域に注目しています。この設定では、モデルがタスクに適応せざるを得なく、様々な学習の遷移が現れます。訓練アルゴリズムが最適解に導くことが困難な場合でも、特化が層間およびニューロン間で不均一に進行することが示されています。また、深いターゲットは学習が難しく、深さや非線形性、幅が特徴学習にどのように影響するかについての洞察も提供しています。