この論文では、自己中心的なビデオデータを用いて操作ポリシーを学習する手法について述べられています。従来のアプローチは単純な事前学習のために人間のデータを利用することが多く、そのためデータの潜在能力を十分に引き出せていません。本研究では、データを「野生環境」と「タスク毎」に分類し、収集と利用のためのスケーラブルな手法を提示しています。特に、1,000時間以上の多様な自己中心的データと20時間以上のタスク関連データからなるPHSDデータセットを構築し、このデータを用いて言語条件付きのフローマッチングポリシー「Human0」を学習します。さらに、ドメイン適応技術を使用することで、人間とヒューマノイド間のギャップを最小限に抑え、言語指示のフォローや少数ショット学習、タスクデータを用いたロバスト性の向上を実現しました。