多タスクLLMのRL後訓練における不均衡勾配

大型言語モデル（LLM）の多タスク後訓練では、異なるタスクのデータセットを混合して共同最適化を行うことが一般的ですが、このアプローチは全タスクが同程度の勾配を寄与することを暗黙の前提としています。しかし、著者らは、強化学習（RL）においてこの前提が成立しないことを示しています。特定のタスクが著しく大きな勾配を生成することで、最適化が大きな勾配を持つタスクに偏る結果となります。ただし、勾配が大きいことが必ずしも学習の増益を意味するわけではなく、小さな勾配を持つタスクと同程度またはそれ以下の学習効果を示すことが多いことを発見しました。この勾配の不均衡は、通常の訓練統計（報酬や利得など）で説明できないため、タスク間の固有の違いから生じることを警告しています。このことは、単純なデータセットの混合に対する警鐘であり、LLMに対する原則的な勾配レベルの修正を求めるものです。