文献推薦における幻覚: 引用頻度がトレーニングデータの冗長性の代理指標として機能する

Hallucinations in Bibliographic Recommendation: Citation Frequency as a Proxy for Training Data Redundancy

本研究は、大規模言語モデル（LLM）が文献推薦において正確な情報を生成する能力が、その知識が生成されたものか記憶されたものであるかに依存していることを仮定しています。特に高頻度で引用される論文は、低い幻覚率を示すと考え、引用回数をトレーニングデータの冗長性の代理と位置づけました。GPT-4.1を用いて、20のコンピュータサイエンス領域にわたる100件の文献を生成し、それらの正確性を測定。結果として、研究領域によって幻覚率が異なり、引用回数と事実の正確性は強く相関していることが分かりました。また、引用回数が約1,000を超えると、文献情報はほぼそのまま記憶される傾向があることが示されました。これらの知見は、特に引用が多い論文がモデル内にほぼそのまま保持されていることを示唆し、一般化の限界が記憶に移行する閾値や特性について新たな理解を提供します。