言語モデルは効率的な推論者か？論理プログラミングの視点から

この記事では、最新の言語モデル（LM）が持つ推論能力に焦点を当てています。これらのモデルは優れた演繹的推論能力を示しますが、通常の評価基準は正確性に偏り、ヒトの推論における効率性を見落としています。現実の推論シナリオでは、多くの情報が無関係であり、効果的な演繹的推論には無関係な情報を特定し無視する能力が求められます。本研究では、論理プログラミングを通じてLMの推論効率を評価する枠組みを提案し、自然言語で書かれた証明（LMが生成したもの）を論理プログラムを実行して得られる最短証明と整合させる方法を紹介しています。効率性は、モデルが不要な推論を回避する能力を測定することで定量化されました。実験により、さまざまな無関係公理を含む数学の問題を用いたデータセットを構築し、現行のLMがそのような条件下で著しく正確性を欠くことが明らかになりました。