この記事では、ユーザーのプライバシーを損なうことなく高品質な合成テキストを生成するためのアプローチ、ACTG-ARLを提案しています。著者たちは、差分プライバシー(DP)に基づくテキスト生成の課題を克服するため、まず特徴学習と条件生成に分解された階層的な枠組みを導入します。この枠組みでは、DP合成テキスト生成を効率化し、生成過程に学習した特徴を組み込みます。また、アンカーRL(ARL)という新たな訓練後の手法を提案し、条件生成における指示従従能力を向上させます。ARLは、強化学習を用いて制御を強化し、報酬の不正操作を防ぎます。これらの要素を組み合わせたACTG-ARLは、DP合成テキストの品質を20%向上させ、強力なプライバシー保証のもとで条件生成の制御を進展させます。