深層改善監視

最近、Tiny Recursive Models (TRMs) のような小型のループアーキテクチャが、複雑な推論タスクにおいてLarge Language Models (LLMs)を上回ることが示されました。本研究では、これらの手法を最小限の変更でさらに効率化する方法について探求しています。具体的には、TRMsの潜在的な推論を分類器なしのガイダンスおよび暗黙のポリシー改善アルゴリズムとして定式化し、トレーニング中に各ループにターゲットを提供する新しいトレーニングスキームを提案しました。このアプローチにより、トレーニングの効率が大幅に向上し、全体のフォワードパス数を18倍削減し、品質を維持しつつ停止メカニズムを排除しました。特に、0.8MパラメータでARC-1において24%の精度を達成し、多くのLLMを上回っています。