トランスフォーマーにおける自己注意ダイナミクスの多安定性

本論文では、機械学習における自己注意ダイナミクスがトランスフォーマーの注意機構のモデルであることを説明しています。このダイナミクスは、Ojaフローと呼ばれる多エージェントモデルに関連しており、トランスフォーマーの価値行列に対応する行列の主固有ベクトルを計算します。著者は、「シングルヘッド」自己注意システムの平衡状態を、コンセンサス、二部コンセンサス、クラスタリング、ポリゴン平衡の4つのクラスに分類しました。最初の3クラスからの複数の漸近的に安定な平衡が自己注意ダイナミクス内で共存することが多いとされています。また、最初の2クラスからの平衡状態は常に価値行列の固有ベクトルと整合しており、主固有ベクトルに限られません。この研究は、トランスフォーマーの自己注意メカニズムの理解に貢献します。