トランスフォーマーは証明可能に思考の連鎖推論を学習し、長さの一般化を実現する

Transformers Provably Learn Chain-of-Thought Reasoning with Length Generalization

本論文では、人工知能（AI）の推論能力に関する理論的分析が行われ、特にトランスフォーマーが合成状態追跡タスクを用いて学習する過程が探求されています。研究者たちは、状態追跡問題の代数的構造が、学習した思考の連鎖（CoT）の外挿度にどのように影響するかを数学的に証明しました。具体的には、トランスフォーマーの長さの一般化がアテンションの集中メカニズムに関連しており、アテンション層の情報検索ロバスト性が長文推論の構造に結びついていることが明らかにされています。また、限られた推論の長さを持つトランスフォーマーの場合、再帰的自己学習スキームにより解決可能な問題の長さを段階的に延ばせることも示されています。著者たちは、トランスフォーマーが思考の連鎖を用いてNC^1完全問題を学習できることについて初めての最適化の保証を提供しており、その結果は実験的にも裏付けられています。