なぜトランスフォーマーは乗算を学べないのか？

この研究では、トランスフォーマーモデルが多桁の乗算を学べない理由を探ります。多桁の乗算を成功裏に学習するモデルを逆エンジニアリングし、3つの重要な発見を報告しています。まず、モデルは乗算に必要な長距離依存性をエンコードしているという証拠が示されます。次に、モデルは注意機構を利用して、ペアの部分積を「キャッシュ」し「取得」するための有向非巡回グラフを構築します。最後に、部分積はミンコフスキー和を用いて表現され、効率的な表現方法がモデルの学習過程において必要であることが分かりました。標準的なファインチューニングでは、モデルが求められる長距離依存性を欠く局所的最適解に収束することが確認され、補助的な損失を導入することで、モデルが乗算を学習できるようになります。この研究は、トランスフォーマーによる長距離依存性の学習における落とし穴を明らかにし、正しい誘導バイアスがこれに対処できる例を提供しています。