この記事では、RNN(リカレントニューラルネットワーク)を用いた新しいトレーニングパラダイム「TNT」を紹介しています。TNTは、トレーニング効率と推論性能を切り離すことを目的とした二段階プロセスで構成されています。第一段階では、階層的メモリを用いた効率重視の事前トレーニングが行われ、グローバルモジュールが大きなチャンクを処理し、複数のパラレルローカルモジュールが細かい詳細を扱います。これにより、巨大なコンテキストの並列処理が可能になります。第二段階では、ローカルメモリモジュールを小さく高解像度なチャンクサイズに微調整し、精度を最大化します。TNTは、TitansおよびTTTモデルで評価された結果、従来の最も正確な設定と比較して、最大で17倍のトレーニング速度向上を達成し、モデル精度も改善しました。このアプローチにより、RNNの表現力を高め、今後のTransformerとの性能ギャップを埋めるための実用的な基盤が築かれます。