本記事では、LLM(大規模言語モデル)のための新しいエージェントワークフローであるMemSearcherを提案しています。従来の検索エージェントはすべての対話履歴をLLMコンテキストに連結し、情報の完全性を保つ一方で、長く騒がしいコンテキストを生じさせ、高い計算コストとメモリ使用量をもたらしました。MemSearcherは、コンパクトな記憶を維持しつつ、現在のターンとそれを結合します。各ターンで、ユーザーの質問と記憶を融合させ、推論のトレースを生成し、検索アクションを実行して、タスクを解決するために必要な情報のみを記憶に更新します。この設計により、マルチターンでの対話における文脈の長さが安定し、効率が向上します。さらに、マルチコンテキストGRPOというエンドツーエンドの強化学習フレームワークを導入し、MemSearcherエージェントの推論や検索戦略、記憶管理を最適化します。実験の結果、MemSearcherは複数の公的ベンチマークで顕著な改善を示しました。