LLMsは問題の難易度をエンコードする

大規模言語モデル（LLM）は、複雑な問題を解決できる一方で、単純な問題に対しては頻繁に失敗するという一貫性のない特性を示しています。この記事では、LLMが人間の判断と一致する形で問題の難易度をエンコードしているか、およびその表現が強化学習の後に一般化を追跡するかを調査しています。著者たちは、60モデルを対象にして、数学およびコーディングのサブセットに対して、線形プローブをトレーニングしました。その結果、人間がラベル付けした難易度は強く線形にデコード可能であり、モデルサイズに伴って明確なスケーリングを示しました。一方、LLM由来の難易度はかなり弱く、スケーリングが不十分でした。これにより、人間のアノテーションが安定した難易度シグナルを提供し、モデルのパフォーマンスが改善するにつれて、LLM由来の難易度推定がずれていくことが示唆されています。