トランスフォーマーにおける長さ一般化の定量的限界

本研究はトランスフォーマーの長さ一般化（LG）に関する問題を探求します。これは、短いシーケンスで訓練されたモデルが、見たことのない長いシーケンスでも性能を維持できる能力です。先行研究によれば、トランスフォーマーは訓練シーケンスの長さがある閾値を超えると長さ一般化を達成することが示されていますが、その閾値の大きさは未解決でした。本研究では、長さ一般化が発生するために必要な訓練の長さに関して初の定量的限界を提供します。具体的には、異なる問題設定におけるLGを分析し、長いシーケンスに対するトランスフォーマーの内部動作が訓練時に見た短いシーケンスの動作によって「シミュレート」可能である時にLGが発生することを証明します。これらの結果は、トランスフォーマーの外挿メカニズムに関する理論的理解を深め、より複雑なタスクに対する一般化には豊かな訓練データが要求されるという直観を形式化します。