この記事では、多目的強化学習における目標状態を均一に訪問しつつ、期待されるリターンを最大化する問題について考察されています。通常の強化学習では、ポリシーはリターンを最大化することに集中するため、一つまたは少数の報酬源に依存しがちです。しかし無限の状態空間を持つ大規模システムでは、すべての状態を列挙することが困難であり、目標状態は実際に到達して初めて判定されます。著者たちは、新しいアルゴリズムを提案し、報酬を計算するカスタムRL報酬を基に、目標状態の集合に分散したマージナル状態分布を持つ高リターンのポリシーミクスを学習します。実験により、このアルゴリズムの効果を評価し、期待されるリターンと状態分布の分散を両立させることができることを示しています。