この記事では、トランスフォーマーベースの言語モデルを理解するための幾何学的枠組みを提案しています。この枠組みは一般相対性理論との明示的な類似性を引用しています。クエリとキーは、表現空間に対して効果的なメトリックを誘発し、アテンションはトークン間の値ベクトルの並行輸送を実現する離散的な接続として機能します。スタックされた層は、トークン表現がこの曲がった多様体上で進化するための離散的な時間スライスを提供します。また、バックプロパゲーションは、パラメータ空間における損失最小化の軌道を形成するための最小作用の原理の役割を果たします。本稿では、この類似性が正しい場合の予測をテストするための実験を設計し、トークンの埋め込みがどのように特性空間内で曲がり、再配置するかを視覚化し、シミュレーションによって曲率の存在とその結果を示します。