本論文では、深層探索におけるエージェントの強化に向けた「強化学習における検証可能な報酬(RLVR)」の手法を提案しています。深層探索シナリオでは、エージェントが探索コストを多く費やす一方で報酬が得られにくく、これがアプローチの妨げとなっています。本研究では、この問題を「報酬密度最適化」として定義し、探索コストに対する報酬の向上を目指しています。新たに提案するフレームワーク「InfoFlow」では、長期タスクの分解による処理報酬の割り当てや、失敗を活用したヒントの提供、二重エージェントアーキテクチャの導入によって学習信号を濃縮し、全体の報酬密度を向上させています。複数のベンチマークにおいてInfoFlowの有効性が示され、軽量なLLMが高度な商用LLMと同等の性能を達成できることが確認されました。