大規模言語モデルは年代順を理解しているのか？

この記事では、大規模言語モデル（LLMs）が年代順を理解しているかどうかを検証するため、さまざまな年代順のタスクを実施しました。研究では、モデルが事前学習で既知の事実を用いて、年代順作成、条件付きソート、年代記的誤りの検出といったタスクの複雑さを徐々に高めていきました。評価対象となったのはGPT-4.1、Claude-3.7 Sonnet、GPT-5で、特に「拡張思考（ET）」を用いた場合のパフォーマンスを調べました。結果、モデルはローカルの順序は保持するものの、全体として一貫したタイムラインを維持するのに苦労し、順序が長くなるにつれて正確性が低下することが分かりました。条件付きソートでは、フィルタリングが主な失敗要因であり、GPT-5とClaude-3.7 SonnetはETを使用することで優れた結果を示しました。年代記的誤り検出は比較的容易なタスクでしたが、重複するタイムラインの存在によってパフォーマンスが低下しました。この研究はLLMsの限界を明らかにし、金融分野でのリアルタイム応用についての洞察を提供します。