予測的コンテキスト埋め込みを学習することで実現するコンテキストレベルの言語モデリング

本論文では、次のトークン予測（NTP）が現代の大規模言語モデル（LLM）の基盤であり、テキスト生成や推論、指示の追従において前例のない能力を駆動することが説明されています。しかし、トークンレベルの予測は、高次の意味構造や長距離のコンテキスト関係を捉える際の制約となっています。この問題を解決するために、著者らは「ContextLM」を提案し、標準の事前学習に次のコンテキスト予測の目標を追加することで多トークンコンテキストの予測表現を学習することを目指しています。実験により、ContextLMはGPT2およびPythiaモデルファミリーにおいて、パープレキシティ（困難度）や下流タスクの性能が一貫して改善されることが示されました。次のコンテキスト予測は、スケーラブルで効率的な強化言語モデリングの手段を提供し、長期的な一貫性と効果的な注意の配分を達成することができます。