AILA--ローカリスト言語モデルに関する初めての実験

本論文では、トランスフォーマー言語モデルにおける制御可能な局所性の初めての実証を示しています。この新たなアーキテクチャは、調整可能な局所性ダイアルパラメータを通じて、表現の局所化の度合いを連続的に制御することを可能にします。従来の言語モデルが分散表現に依存するのに対し、我々のアプローチでは、全く再訓練を必要とせずに、高度に解釈可能なローカリストエンコーディングと効率的な分散表現の間を動的に補間することができます。WikiTextコーパスを用いた実験では、2層のトランスフォーマーアーキテクチャにおいて、局所性パラメータを1.0から0.0まで変化させることにより、局所性の構成が著しく低い注意エントロピーを実現することを確認しました。また、局所性の中間値が解釈性と性能のトレードオフを最適化することを示しました。これにより、ローカリスト言語モデルは透明性と能力を必要とする規制された領域での応用に有用なフレームワークを提供します。