arXiv cs.AI

KnowCoder-A1: 結果監視による自己決定論的推論能力の促進とKBQAへの応用

KnowCoder-A1: Incentivizing Agentic Reasoning Capability with Outcome Supervision for KBQA

http://arxiv.org/abs/2510.25101v1


本論文では、知識ベースの質問応答(KBQA)において、新たに提案されたKnowCoder-A1という大規模言語モデル(LLM)を紹介します。KnowCoder-A1は、自己決定論的推論を自律的に行い、質問に対する答えを導き出す能力を持っています。従来の方法では、プロセス監視を通じて合成された推論軌跡にモデルをファインチューニングすることが一般的でしたが、そのアプローチでは探索を促進するインセンティブが弱く、推論能力の強化が困難でした。KnowCoder-A1は、結果のみに基づく監視の下で、易しい課題から難しい課題へと進む多段階カリキュラム強化学習を採用しています。これにより、独自の推論能力を発展させ、従来の手法と比較して、三つの主要データセットで常に優れたパフォーマンスを発揮しています。特に、GrailQAのゼロショット部分で、トレーニングデータのわずか1/12を使用しながら、最大11.1%の相対改善を達成しています。