PokeeResearch: AIのフィードバックと頑健な推論枠組みによる効果的な深層研究

PokeeResearch: Effective Deep Research via Reinforcement Learning from AI Feedback and Robust Reasoning Scaffold

PokeeResearch-7Bは、複雑なクエリを分解し、外部証拠を取得し、基盤となる応答を合成するための深層研究エージェントです。このモデルは、7Bパラメータの深層研究エージェントで、堅牢性とスケーラビリティを向上させるための統一された強化学習フレームワークの下で構築されています。強化学習は、事実の正確性、引用の忠実性、指示の遵守を評価するための大規模言語モデル（LLM）に基づく報酬信号を使用して、ポリシーを最適化します。また、連鎖思考駆動の多呼び出し推論枠組みにより、自己検証とツール障害からの適応的回復が強化されています。このモデルは、人気のある10の深層研究ベンチマークの中で、7Bスケールの深層研究エージェントとして最先端の性能を達成しています。これにより、注意深い強化学習と推論デザインが、効率的で耐久性のある研究グレードのAIエージェントを生み出すことができることが示されています。