この記事では、オンラインの好みに基づく強化学習(PbRL)に関する研究を行い、サンプル効率を向上させる方法を探求しています。従来の研究がペアワイズ比較に重点を置いている中、複数の比較やランキングフィードバックを活用する新しいアプローチが提案されていますが、フィードバックの長さが増すと性能保証が劣化する問題が指摘されています。この課題に対処するために、著者らはアクションのサブセットに対するランキングフィードバックのためのPlackett-Luceモデルを採用し、平均的不確実性を最大化して複数のアクションを選択するM-AUPOアルゴリズムを提案しました。このアルゴリズムは、サブセットのサイズが大きくなるほど性能が向上することを示す理論的成果を得ており、従来の研究の限界を克服しています。加えて、サブセットサイズがサンプル効率に与える影響について初めて具体的に示しています。