VideoAgentTrekは、手動でのアクション軌跡注釈の代わりに、公に利用可能なスクリーン記録動画からトレーニングデータを自動的に収集するスケーラブルなパイプラインを提案しています。この手法では、動画から GUI アクションを検出し、タイミングや文脈を考慮した正確な境界を設ける「Video2Action」という逆動力学モジュールを導入しました。この方法により、39,000本のYouTubeチュートリアル動画から152万のインタラクションステップを自動生成しました。さらに、従来の微調整の後に継続的な事前学習を行うことで、タスク成功率を9.3%から15.8%に向上させました。つまり、インターネット上の受動的な動画を活用して、高品質なスーパービジョンを提供できることが示されています。