arXiv cs.AI

まるで以前に会ったかのように: LLMは見知ったファイルを認識する確信を示す

As If We've Met Before: LLMs Exhibit Certainty in Recognizing Seen Files

http://arxiv.org/abs/2511.15192v1


この記事では、大規模言語モデル(LLM)がトレーニングデータに含まれている著作権で保護された素材をどのように認識し、その使用が許可されたかを検出する新たなフレームワーク「COPYCHECK」を提案しています。従来の方法は、LLMの過剰な自信や限られた真実のデータへのアクセスに起因する重要な課題に直面していましたが、COPYCHECKは不確実性の信号を活用し、「見知った」データと「見知らぬ」データを区別するパターンを捕らえます。この手法により、COPYCHECKは平均で90.1%から91.6%の精度を達成し、他の最先端技術と比較して90%以上の改善を示しました。この研究は、著作権検出に不確実性を初めて応用し、トレーニングデータの透明性を向上させる実用的なツールを提供します。