本論文では、ヒューマノイドロボットのための適応性全身制御ポリシーを例となる動作から学習するフレームワーク「SoftMimic」を提案しています。人間の動作を模倣することで、ロボットは新しいスキルを迅速に習得できますが、従来の手法では硬直した制御が優先され、予期せぬ接触時に脆弱で安全でない動作が生じることがあります。SoftMimicでは、外部の力に柔軟に反応しつつ、バランスと姿勢を維持することが可能です。逆運動学ソルバーを利用して、実行可能な適応動作のデータセットを生成し、強化学習ポリシーを訓練します。このアプローチにより、ロボットは安定した反応を生むよう学習し、異なるタスクに対しても単一の動作クリップから一般化する能力を持ちます。シミュレーションと実世界の実験を通じて、この方法の安全性と効果を実証しています。