arXiv cs.AI

IterResearch: マルコフ状態再構成による長期エージェントの再考

IterResearch: Rethinking Long-Horizon Agents via Markovian State Reconstruction

http://arxiv.org/abs/2511.07327v1


本論文では、長期的なタスクに対するエージェントの効果を向上させる新しいアプローチ「IterResearch」を提案しています。従来の手法は単一のコンテキストの枠組みに依存しており、情報の蓄積によって問題が生じることがありました。IterResearchは、長期研究をマルコフ決定過程とし、戦略的な作業空間の再構築を通じて再定義しています。これにより、記憶として進化したレポートを維持し、洞察を定期的に統合することで、一貫した推論能力を保つことが可能になります。また、効率的な探索を促進する「効率意識政策最適化(EAPO)」という強化学習フレームワークを開発し、安定した分散トレーニングを実現しています。実験結果から、IterResearchは従来のエージェントと比較して平均14.5ポイントの改善を示し、特に2048回の対話において最大42.5%のパフォーマンス向上を達成しました。これにより、IterResearchは長期的な推論における有望な解決策として位置付けられています。