Composer: RLを用いた高速フロンティアモデルの構築

Composerは、ソフトウェアエンジニアリングのインテリジェンスと速度のために設計された新しいエージェントモデルです。このモデルは、類似のモデルに比べて生成速度が4倍速く、フロンティアコーディングの結果を達成します。現実のソフトウェアエンジニアリングの課題を大規模なコードベースで解決することで、トレーニングを行っています。Composerは、長いコンテキスト生成と理解をサポートするMixture-of-Experts（MoE）言語モデルで、強化学習（RL）を通じてソフトウェアエンジニアリングに特化しています。トレーニングの各反復では、問題の説明を与えられ、最適な応答を生成するよう指示されます。効率的なツール使用や並行性を最大化するために、モデルが迅速に意思決定を行えるよう育成しています。また、RL中にモデルは、自ら効果的なツール呼び出しや複雑な検索を行う能力を学びます。大規模なMoEモデルのトレーニングには、PyTorchとRayを活用したカスタムインフラストラクチャが必要であり、多数のNVIDIA GPUでの効率的なトレーニングを実現しています。