本研究では、メモリと継続学習を評価するための新しいベンチマークであるMemoryBenchを提案しています。従来の大規模言語モデル(LLM)の性能向上手法は、データや計算リソースの増加に依存していましたが、高品質データの枯渇によってその限界に達しています。人間や従来のAIシステムが持つ学習能力に着想を得て、LLMシステムでのメモリと継続学習のフレームワーク構築が重要な研究方向となっています。しかし、既存のベンチマークは読み取り理解タスクに偏りがあり、ユーザーからのフィードバックを学習する能力を十分に評価していません。そこで、本研究は多様な領域と言語をカバーした新しいユーザーフィードバックシミュレーションフレームワークを導入し、LLMシステムの継続学習能力を評価します。実験結果は、最先端の手法の効果と効率が不十分であることを示しており、今後の研究に向けた道を開くことを期待しています。