この記事では、質問に対する回答や補完を生成するための学習手法について研究されています。特に、複数の正しい回答の中からいずれかを選ぶことができるという側面に焦点を当てています。学習は、各訓練質問に対する正しい回答のデモンストレーションを基に行われ、オフラインの模倣学習として形式化されています。従来の研究では、デモンストレーションが低複雑性のポリシークラスに属すると仮定し、最大尤度推定が用いられていましたが、著者たちは報酬モデルが低カーディナリティのクラスに属することを提案しています。この新しいアプローチは、サンプルの複雑さをログに基づいて学習し、正しいデモンストレーションから学ぶ際の新たな視点を提供します。