この記事では、大規模言語モデル(LLM)の長期記憶能力を評価する際の課題に対する包括的な解決策を提案しています。従来のベンチマークは物語的な一貫性が欠け、狭い分野しかカバーしておらず、記憶力を単純にテストするタスクが中心です。本研究では、10万トークンにわたる一貫性のある多様な会話を自動生成するための新たなフレームワークを導入し、100の会話と2000の検証された質問で構成された新しいベンチマーク「BEAM」を構築しました。さらに、モデルのパフォーマンスを向上させるために、人間の認知に基づいた「LIGHT」フレームワークを提案し、長期エピソード記憶、短期作業記憶、および顕著な事実を蓄積するためのスケッチパッドの3つの補完的な記憶システムをLLMに実装しました。実験の結果、長い対話においても、LIGHTはさまざまなモデルで一貫してパフォーマンスを改善し、平均3.5%から12.69%の向上を達成しました。この研究は、LLMの長期記憶能力を評価し、強化する新しいアプローチを提供しています。