トランスフォーマーは線形分類のためのほぼ最適なメタラーナーである

本論文では、トランスフォーマーが新しいタスクに少数のインコンテキスト例を用いて適応できるメタラーナーとしての能力を理論的に分析しています。具体的には、簡略化されたトランスフォーマーアーキテクチャが、線形分類の設定において近似的に最適なメタラーナーとして機能することを示しています。研究の対象は、各タスクがクラス条件付きガウス混合モデルに対応する自然なタスクファミリーであり、トレーニング後、信号強度Rに応じて新しいタスクに対してO(k / R^4)のインコンテキスト例を用いて一般化できることを示唆しています。これは、最適な学習者が知っている場合の性能にほぼ匹敵し、インコンテキストデータのみに依存する学習者の一般化性能を大きく上回ります。この結果は、必要なトレーニングタスク数とタスクごとの例の数が、次元の影響を受けないことを示しています。