この記事では、長期タスクにおける大規模言語モデル(LLM)エージェントの訓練の課題と新しいアプローチ、Apolloを提案しています。従来の方法では、詳細な人間の注釈が必要で時間がかかるか、運用ドリブンのサンプリング手法が多くの無効な経路により失敗しがちでした。Apolloは、エージェントが有望な軌道から外れた際にのみ介入する非同期的な人間のガイダンスを取り入れたサンプリングフレームワークです。この設計により、長時間にわたる相互作用が可能になり、費用対効果のあるデータ収集が実現します。InnovatorBenchを用いた評価では、GLM-4.5モデルの訓練において、Apolloは未訓練のベースラインと比較して50%以上の改善を示しました。これは、人間の介入が長期かつ専門的なタスクにおいて重要であることを強調しています。