MemSearcher：エンドツーエンドの強化学習を通じてLLMを推論、検索、記憶管理する方法

MemSearcher: Training LLMs to Reason, Search and Manage Memory via End-to-End Reinforcement Learning

本記事では、LLM（大規模言語モデル）のための新しいエージェントワークフローであるMemSearcherを提案しています。従来の検索エージェントはすべての対話履歴をLLMコンテキストに連結し、情報の完全性を保つ一方で、長く騒がしいコンテキストを生じさせ、高い計算コストとメモリ使用量をもたらしました。MemSearcherは、コンパクトな記憶を維持しつつ、現在のターンとそれを結合します。各ターンで、ユーザーの質問と記憶を融合させ、推論のトレースを生成し、検索アクションを実行して、タスクを解決するために必要な情報のみを記憶に更新します。この設計により、マルチターンでの対話における文脈の長さが安定し、効率が向上します。さらに、マルチコンテキストGRPOというエンドツーエンドの強化学習フレームワークを導入し、MemSearcherエージェントの推論や検索戦略、記憶管理を最適化します。実験の結果、MemSearcherは複数の公的ベンチマークで顕著な改善を示しました。