SkyRL-Agentは、効率的なマルチターンおよび長期間のエージェント訓練と評価を行うためのフレームワークです。このフレームワークは、非同期ディスパッチ、軽量ツール統合、および柔軟なバックエンド相互運用性を提供し、既存の強化学習フレームワーク(SkyRL-train、VeRL、Tinkerなど)とのシームレスな利用を可能にします。SkyRL-Agentを使用して、Qwen3-32Bから訓練されたソフトウェアエンジニアリングエージェントSA-SWE-32Bが、強化学習のみでトレーニングされました。特に、最適化された非同期パイプラインディスパッチャーとASTベースのコードナビゲーションツールを利用した訓練手法が重要な要素として導入され、これによりトレーニング効率が向上しました。SA-SWE-32Bは、SWE-Benchで39.4%の成功率を達成し、コストが半減しました。さらに、SA-SWE-32Bは、SWEタスクにのみ訓練されたにもかかわらず、他のエージェントタスクにも効果的に一般化できる能力を示しています。