反復検索強化生成(RAG)は、大規模な言語モデルが複雑な多段階の質問に回答できるようにする技術です。しかし、ループが追加されるたびに遅延やコスト、誤解を招く証拠を導入するリスクが増加します。この問題を解決するために、Stop-RAGという価値ベースの制御器が提案され、検索をいつ停止すべきかを適応的に決定します。Stop-RAGは、完全な軌道からのQ(λ)ターゲットで訓練され、効果的な停止ポリシーを学習し、既存のAPIやパイプラインと互換性があります。実験の結果、Stop-RAGは固定的な反復ベースラインや言語モデルに基づく停止法を常に上回りました。これにより、適応停止が現在のエージェントシステムで欠落している重要な要素であることが示され、価値ベースの制御がRAGシステムの精度を向上させる可能性を示しています。