本論文では、連続状態および行動空間を持つマルコフ決定過程(MDP)に対して、ランダム化された関数近似を用いるポリシー学習手法を提案します。近年の深層強化学習では、高次元の複雑な課題において優れた成果を上げていますが、良好な結果を得るには重みの大規模な調整が必要です。これに対し、著者らはランダム化されたネットワークを使用することで、コストの低減と数値性能の向上を実現しています。提案手法「RANDPOL」は、ポリシーと価値関数をランダム化されたネットワークで表現し、有限時間の性能保証を示します。また、challenging environmentsにおける数値的パフォーマンスを示し、従来の深層ニューラルネットワークに基づくアルゴリズムと比較しています。