本論文では、言語モデルが現実世界のアプリケーションにおいて重要な多制約指示に従うのが困難である問題に対処します。従来の強化学習アプローチは外部監視への依存やスパースな報酬信号の問題を抱えています。著者たちは、外部監視に依存しないラベルなしの自己教師あり強化学習フレームワークを提案し、指示から直接報酬信号を導き出し、報酬モデルの訓練のための擬似ラベルを生成します。また、報酬のスパースさの課題に対処するために制約分解戦略や制約別バイナリ分類の効率的手法を導入します。実験の結果、提案手法は3つのドメイン内データセットと5つのドメイン外データセットにおいて強力な改善を実現し、特に複雑なエージェント的およびマルチターンの指示フォローにおいて優れた一般化能力を示しました。