arXiv cs.AI

非帰属性: 情報取得と意味的類似性からの新奇性の計算

Un-Attributability: Computing Novelty From Retrieval & Semantic Similarity

http://arxiv.org/abs/2510.27313v1


この記事では、言語モデルの出力と事前学習コーパスとの関連性を理解することの重要性について述べています。特に、従来のトレーニングデータ帰属法では出力に影響を与えるトレーニング例を特定することが多いですが、本研究では逆に、どの出力が事前学習例に帰属できないかを問います。新たに提案された「非帰属性」は、意味的な新奇性を測定するための手段として機能し、事前学習コーパスに類似の文脈が存在しない場合に出力を新奇と見做します。特に、GISTエンベディングを利用した二段階の情報取得パイプラインを用いて、新奇性を評価します。研究では、モデルが事前学習データをより長く利用すること、特定の領域が新奇性を促進または抑制すること、指示調整が新奇性を向上させることを報告しています。加えて、約20TBのコーパスデータを公開し、研究の再現性を支援しています。