推論モデルはうまく推論するが、限界がある

大規模言語モデル（LLM）は推論タスクで大きな進展を示していますが、最近の研究で、トランスフォーマーやLLMは、推論問題の複雑さがある程度を超えると壊滅的に失敗することがわかりました。それに対して、段階的な議論や自己検証のインセンティブで微調整された大規模推論モデル（LRM）を再評価しました。LRMは、NLGraphのようなグラフや推論ベンチマークで驚異的な性能を示しますが、複雑さをより慎重にスケールさせると、既存のベンチマークには限られた複雑さしかないことが明らかになりました。この研究では、新しいデータセットであるDeep Reasoning Dataset（DeepRD）を開発し、モデルの性能を評価した結果、十分な複雑さでLRMの性能が急激に低下し、一般化しないことがわかりました。また、LRMの結果を現実の知識グラフや相互作用グラフの複雑さの分布と関連付け、ほとんどの実世界の例はLRMの成功範囲内であるが、長い尾が大きな失敗の可能性を示していることも強調されています。この分析は、LRMの近い将来の有用性を示しつつ、訓練分布の例の複雑さを超える一般化できる新しい方法の必要性を強調しています。