自然ではない: オフポリシートレーニングデータがプローブのパフォーマンスに与える影響

この記事では、大規模言語モデル（LLM）の行動監視におけるプロービング技術の有用性と、その際に用いるトレーニングデータの種類がプローブ性能にどのように影響するかを検討しています。自然な行動例が少ないため、研究者は合成データやオフポリシーデータを使用せざるを得ません。この研究では、8種類のLLM行動に対してオフポリシーデータを用いた場合のプローブの一般化性能を系統的に評価した結果、合成データの使用がプローブ性能に大きな影響を与えることが分かりました。特に、同一ドメインのオフポリシーデータを用いる方が異なるドメインのデータよりも信頼性が高いことが示され、LLMの監視のためにより効果的なデータ処理手法の必要性が強調されています。