効率的な言語モデルのための弾力的アーキテクチャサーチ

本論文では、自然言語理解（NLU）タスクにおける大規模事前学習済み言語モデルの計算およびメモリ要件に伴う経済的・環境的な課題に対処するため、弾力的言語モデル（ELM）という新しいニューラルアーキテクチャサーチ（NAS）手法を提案しています。ELMは、効率的なトランスフォーマーブロックと次元・ヘッド数調整のための動的モジュールを持つ柔軟な探索空間を導入し、既存のNASアプローチを拡張しています。これにより、モデルアーキテクチャの探索が更に徹底され、効果的になります。また、各ブロックの特性を保持するための新しい知識蒸留損失も導入し、探索中のアーキテクチャ選択の識別能力を向上させています。実験結果は、ELMによって発見されたモデルが従来の手法を大幅に上回ることを示しています。