本研究では、Large Language Models(LLMs)が多くのタスクで人間の性能を超えているものの、推論能力向上において正式な検証が難しい課題に焦点を当てています。従来のアプローチは、偏りを含む可能性があるアドホックなデータセットや、ルールの厳密さを持つがエージェントの意思決定過程を捉えきれない形式的証明システムに依存しています。このギャップを埋めるために、TempoBenchという新たなベンチマークを提案します。このベンチマークは推論の難易度をパラメータ化し、LLMsの推論能力を体系的に分析するための道具を提供します。TempoBenchでは、時間的トレース評価(TTE)と時間的因果評価(TCE)の2つの評価方法を用いて、モデルの多段階推論能力をテストします。結果、モデルはTCE-normalで65.6%、TCE-hardで7.5%というスコアを得ており、複雑性が増すと性能が悪化することが明らかになりました。