データミキシングが文脈学習を形成する方法：MLPを用いたトランスフォーマーの漸近的等価性

How Data Mixing Shapes In-Context Learning: Asymptotic Equivalence for Transformers with MLPs

この研究では、プリトレインされたトランスフォーマーが持つ文脈学習（ICL）の能力を非線形タスクにおいて、異なるデータソースからの多様な入力、タスク、ノイズ分布を用いて調査しています。特に、二層のMLPヘッドを持つモデルを分析し、一層目を単一の勾配ステップで訓練し、二層目を完全に最適化する手法を採用。高次元漸近性の下で、これらのモデルは構造的な多項式予測器とICL誤差において等価であることを証明。この結果により、非線形MLPが非線形タスクにおいてICL性能を大幅に向上させることが分かりました。また、高品質データソースの特性を特定し、タスクの共分散が十分な構造を示す場合にのみ特徴学習が発生することを示しました。実世界のマルチリンガルセンチメント分析のシナリオを使って実験し、理論的な基盤とデータの役割についての実用的な洞察を提供しています。