言語モデルの継続の可処理分布を学習する

本論文では、制御された言語生成がシーケンスレベルの制約をテキストに適用する方法について考察しています。これらの制約は将来のトークンに依存するため、自動回帰型言語モデルで直接条件付けることは一般に困難です。従来の研究では、隠れマルコフモデル（HMM）などの可処理サロゲートを使用して、継続の分布を近似し、モデルの次のトークン確率を調整していますが、これらのアプローチは文脈を十分に考慮できないことが多いため、品質が低下します。新たに提案された「Learning to Look Ahead（LTLA）」は、基本の言語モデルによる豊かなプレフィックスエンコーディングと、正確な継続確率を計算する固定の可処理サロゲートモデルを組み合わせたハイブリッドアプローチです。LTLAは、全ての次トークン候補を一度に考慮するバッチ処理と、サロゲートの潜在状態をモデルの隠れ表現に条件付けることで効率的な計算を実現しています。この手法は、従来のHMMよりも高い条件付き尤度を達成し、視覚と言語のモデルにおける継続分布の近似や、制御生成タスクにおける制約満足度の向上を実現しています。