arXiv cs.AI

細粒度検索エージェント監視のための合成データの再利用

Repurposing Synthetic Data for Fine-grained Search Agent Supervision

http://arxiv.org/abs/2510.24694v1


本研究では、知識集約的タスクを解決するために、LLMベースの検索エージェントがエンティティ中心の合成データを使用してトレーニングされる現状に対し、既存の方法であるグループ相対ポリシー最適化(GRPO)の限界を指摘しています。GRPOは豊富なエンティティ情報を捨て、スパースな結果ベースの報酬に依存していますが、これにより有意義な「ニアミス」サンプルを識別できず、貴重な学習信号を失ってしまいます。研究では、トレーニング中に捨てられたエンティティを活用し、正確な最終回答との相関関係を示すことで、エンティティに基づく部分報酬を割り当てる新しいフレームワークであるエンティティ認識グループ相対ポリシー最適化(E-GRPO)を提案します。実験により、E-GRPOはGRPOのベースラインを一貫して上回り、より効率的な推論ポリシーを実現します。