インタラクションを知性として Part II: 長期タスクトレーニングのための非同期ヒューマンエージェントロールアウト

Interaction as Intelligence Part II: Asynchronous Human-Agent Rollout for Long-Horizon Task Training

この記事では、長期タスクのトレーニングにおける大規模言語モデル（LLM）エージェントの能力を強化する手法として、Apolloという新しいサンプリングフレームワークを提案しています。従来の方法は、密接な人間の注釈や結果主導のサンプリングに依存しており、長期タスクにはコストがかかり、効果が限定されていました。Apolloは、人間の介入を非同期的に行える設計を採用し、エージェントが有望な軌道から外れた際にのみ介入することで、効率的なデータ収集を可能にしています。このフレームワークの導入により、インタラクションを30時間以上継続しながら、価値ある軌道を低コストで生成できることが示されました。実験では、GLM-4.5モデルのトレーニングにおいて、非接触ベースラインに対して50%以上の改善を達成しました。これにより、長期かつドメイン特化型タスクにおける人間の役割の重要性が強調されました。