arXiv cs.LG

ポイズニング攻撃に対する安全な取得強化生成

Secure Retrieval-Augmented Generation against Poisoning Attacks

http://arxiv.org/abs/2510.25025v1


本記事では、大規模言語モデル(LLMs)を使用した自然言語処理の応用、特に情報取得を強化した生成(RAG)の手法について説明しています。RAGは外部の知識を取り入れることでLLMを改善しますが、攻撃者によるデータポイズニングというセキュリティリスクも伴います。データポイズニングは、知識データベースに有害なテキストを注入し、システムの出力を操る攻撃です。本研究では、ポイズニングされたテキストを特定するための検出フレームワーク「RAGuard」を提案します。RAGuardは、まず検索範囲を広げることにより、クリーンなテキストの割合を増加させ、次にテキストの異常な変動を検出するためのチャンクごとのパープレキシティフィルタリング、そして高い類似性を持つテキストをフラグ付けするためのテキスト類似性フィルタリングを適用します。このアプローチはRAGのセキュリティを強化し、大規模データセットでの実験においてその効果を証明しています。