I-RAVEN-X：大規模言語モデルと推論モデルにおける類推的および数学的推論の一般化と堅牢性のベンチマーク

I-RAVEN-X: Benchmarking Generalization and Robustness of Analogical and Mathematical Reasoning in Large Language and Reasoning Models

本記事では、I-RAVEN-Xという新しいシンボリックベンチマークを紹介しています。このベンチマークは、大規模言語モデル（LLMs）と大規模推論モデル（LRMs）における類推的および数学的推論の一般化と堅牢性を評価するために設計されました。I-RAVEN-Xは、オペランドの複雑さを増し、属性の範囲を拡大し、知覚的不確実性を導入することによってI-RAVENを拡張しています。実験結果によれば、LRMsは長い推論関係と広い属性範囲においてLLMsに比べて生産性と系統性が向上する一方、推論における不確実性には依然として大きな課題があり、複数の確率的結果を効果的に探ることができません。