arXiv cs.AI

グローバルな検索拡張生成に向けて:コーパスレベルの推論のベンチマーク

Towards Global Retrieval Augmented Generation: A Benchmark for Corpus-Level Reasoning

http://arxiv.org/abs/2510.26205v1


本研究では、検索拡張生成(RAG)の一形態である「ローカルRAG」から、文書コレクション全体を活用する「グローバルRAG」への進化を提案しています。従来のRAG評価基準は、特定のテキストの一部から関連情報を抽出し、局所的な理解に基づいて回答することが主でした。しかし、実世界のアプリケーションでは、全体的な情報を集約・分析して大規模な知見を得ることが求められています。本論文では、「GlobalQA」という新しいベンチマークを紹介し、カウントや最大値のクエリ、並べ替え、トップk抽出などの4つのコアタスクを評価します。既存のRAG方法は、グローバルタスクにおいて不十分であり、最強のベースラインでも1.51のF1スコアにとどまっていました。これに対抗するために、構造的な整合性を保持しつつノイズ文書を排除するフィルターを組み込んだ「GlobalRAG」というマルチツール協力フレームワークを提案し、実験により6.63のF1スコアを達成しました。