本稿では、ファウンデーションモデルを用いてスキル発見を人間の意図に基づいてガイドする新しい手法「FoG(Foundation model Guided)スキル発見法」を提案しています。従来のスキル発見法はスキルの多様性を最大化することに偏っており、人間の好みを考慮しないため、危険な行動や望ましくないスキルを学習する可能性があります。FoGはファウンデーションモデルから得たスコア関数を用い、望ましい状態に高い値、望ましくない状態に低い値を付与します。このスコアを活用することで、スキル発見アルゴリズムの報酬を再調整し、望ましくない行動の排除、危険エリアの回避を実現しました。また、定義が難しい行動に関連するスキルの発見にも成功しています。