この研究では、大規模言語モデル(LLMs)が表形式データセットに対する推論能力をどのように評価されているかを探求しています。従来の評価方法ではデータセットの汚染といった要素が見落とされがちであり、本研究では「Adult Income」「Titanic」などの広く使用される表形式ベンチマークに対するLLMsの既存知識を調査しています。実験の結果、意味のある列名や解釈可能な値のカテゴリがあるデータセットでのみ汚染効果が現れることが示されました。一方で、これらの手がかりを除去またはランダム化すると、LLMsの性能が偶然のレベルにまで低下します。これにより、LLMsが表形式推論タスクにおいて示す実績が、実際には公開データセットの記憶に起因する可能性があることが示唆されています。研究では、評価プロトコルの改善や、意味的漏洩と本物の推論能力を分離する新たな戦略の提案が行われています。