本論文では、構成的空間推論能力を分析するために設計された大規模なベンチマークデータセット「DecompSR」を紹介しています。このデータセットは500万以上のデータポイントを含み、構成性のさまざまな側面(生産性、置換性、過剰一般化、体系性)を独立して変えることができるように生成されています。データセットは構造的に正確であり、シンボリックソルバーを使用してその正確性が確認されています。DecompSRは、いくつかの大規模言語モデル(LLMs)でのベンチマークテストに利用され、特に空間推論タスクにおいてLLMsが生産的および体系的な一般化に苦しんでいることが示されています。また、言語の変動には比較的強いことがわかりました。データセットは、LLMsの構成的推論能力を詳細に検証するための新しい手法を提供します。