交通標識認識のための情報理論に基づく貪欲な層別学習

現代の深層ニューラルネットワーク（DNN）は通常、グローバルな交差エントロピー損失を用いた監視型のエンドツーエンドで訓練されていますが、この方法では神経細胞が出力重みを保存する必要があり、前方向パスと逆伝播を交互に行うため、計算効率が悪く生物学的にも非現実的です。これに対し、本論文で提案されている貪欲な層別学習は、交差エントロピー損失や逆伝播を排除し、中間的な勾配の計算や出力の保存を回避することでメモリ使用量を削減し、勾配消失や爆発の問題を軽減します。著者たちは、人気のある畳み込みニューラルネットワーク（CNN）の訓練ダイナミクスを情報理論の観点から分析し、層ごとに下から上へと収束することを明らかにしました。この研究に基づき、出力層に直接接続された補助分類器を用いた新たな層別学習手法を提案し、タスクに関連する最小限の表現を学習します。この手法がCIFAR-10およびCIFAR-100での実験において、既存の層別学習手法を上回り、SGDに匹敵する性能を示すことを確認しました。