パリンプセス的メンバーシップ推定によるブラックボックスモデルの起源解明

この記事では、ブラックボックスモデルが他のモデルを基にしているかどうかを検証する方法について論じています。具体的には、ある言語モデルのトレーニングを行ったアリスが、おそらく彼女のモデルを使用しているボブをどのようにして特定できるかという問題に着目しています。この問題を独立性テストの観点から定式化し、言語モデルのパリンプセス的な記憶に基づいて解析します。ボブのモデルやテキストがアリスのトレーニングとどの程度相関しているかを統計的に検証し、無作為にシャッフルされた訓練データの相関が有意な場合には、アリスのモデルがボブの使用に影響を与えている証拠となります。著者たちは、様々なモデルにおける実験を通じて、訓練データにおける特定の順序との関連性を調査し、観察的設定とクエリ設定の2つの手法を用いて、ボブのテキストがアリスのものと一致する可能性を定量的に評価しました。