コンテキストを考慮したスケーリング法によるタスク性能予測

スケーリング法は、大規模言語モデルの理解を変革し、交差エントロピー損失などの上流指標とモデルサイズ、トレーニングデータ、計算リソースといった設計要因を結びつける。しかし、従来の法則はコンテキストが重要な下流タスクの性能を捉えきれていない。本研究では、トレーニング計算量と提供されたコンテキストの関数として下流性能を共同でモデル化するシンプルで解釈可能な枠組みを提案する。Llama-2-7BとLlama-2-13Bの拡張コンテキストバリエーションを用いて65,500件のユニークなインスタンスに対する下流性能を実証的に検証し、高い予測精度を持つことを確認した。トレーニング計算量が三桁異なる範囲を一般化し、コンテキストが増加するにつれて性能を信頼性高く外挿できる。この結果は、トレーニング計算とコンテキスト利用の相互作用に関する重要な洞察を提供し、多様な下流タスクのための効率的な長コンテキストのLLM設計の指針となる。