トランスフォーマーを用いた擬似乱数の学習: 置換合同生成器、教育課程、及び解釈可能性

Learning Pseudorandom Numbers with Transformers: Permuted Congruential Generators, Curricula, and Interpretability

本研究では、トランスフォーマーモデルが置換合同生成器（PCG）によって生成されるシーケンスを学習する能力を探ります。PCGは、ビット単位のシフトやXOR、回転、切り捨てを行うことで、線形合同生成器（LCG）よりも大幅に難易度が増します。この難易度にもかかわらず、トランスフォーマーは多様なPCGバリエーションからの未見のシーケンスに対してコンテキスト予測を成功させることが示されました。実験では、モジュラスを $2^{22}$ にスケールアップし、最大 $50$ 百万のモデルパラメータと $5$ 億トークンのデータセットを使用しました。出力が単一ビットに切り捨てられる場合でも、モデルは信頼性を持って予測できることがわかりました。また、複数の異なる擬似乱数生成器を同時に訓練することで、モデルはそれらを共同で学習し、異なる置換から構造を特定する能力が示されました。さらに、モジュラス $m$ に関するスケーリング法則やカリキュラム学習の重要性も説明されています。最後に、埋め込み層の分析を通じて、新たなクラスタリング現象が発見されました。