この記事では、知識ベースからの情報取得が大規模言語モデル(LLM)の事実性向上に寄与する可能性を探ります。現時点で多くの解決策が提案されていますが、グラフ検索用のグラウンドトゥルースターゲットを有する質の高いQAデータセットの乏しさにより、方法の比較が困難です。著者たちは、あらゆる知識グラフから高品質な合成知識グラフQAデータセットを生成するフレームワーク「SynthKGQA」を提案し、各質問に対するグラウンドトゥルースの事実を提供します。このフレームワークは、KGリトリーバルのパフォーマンス評価を豊かにし、モデルのトレーニングにも寄与することが示されています。具体的には、Wikidataを用いて新しいデータセット「GTSQA」を生成し、見たことのないグラフ構造や関係タイプに対するKGリトリーバルのゼロショット一般化能力をテストします。