進化する一歩: 兆スケール思考モデルのための強化学習の拡張

Every Step Evolves: Scaling Reinforcement Learning for Trillion-Scale Thinking Model

本記事では、1兆のパラメータを持つオープンソースの最新思考モデル「Ring-1T」を紹介します。このモデルは、1兆の総パラメータを特徴としており、トークンごとに約500億を活性化します。兆パラメータスケールでのモデル学習には、トレーニングと推論のミスマッチ、展開処理の非効率性、RLシステムのボトルネックなど、前例のない課題が伴います。これに対処するために、著者たちは以下の三つの革新を提案しています：（1）IcePopによるトークンレベルの差異マスキングとクリッピングによるRLトレーニングの安定化、（2）C3PO++によるトークン予算内での長期展開におけるリソース利用の向上、（3）兆パラメータモデル学習を妨げるシステム的ボトルネックを克服するための高性能RLフレームワーク「ASystem」。このモデルは、重要なベンチマークにおいて画期的な結果を達成し、大規模思考インテリジェンスの民主化に向けた重要な一歩となることを目指しています。