深い価値基準: モデルが深い価値を一般化するか浅い好みを測定する

Deep Value Benchmark: Measuring Whether Models Generalize Deep values or Shallow Preferences

本記事では、Deep Value Benchmark（DVB）という評価フレームワークを導入し、大規模言語モデル（LLM）が基本的な人間の価値を学習するのか、単なる表面的な好みを学習しているのかを直接テストします。この区別はAIの整合性にとって重要です。深い価値を捉えるシステムは人間の意図を強力に一般化できる一方、表面的なパターンのみを捉えるシステムは誤った行動を生む可能性があります。DVBは、深い価値（例えば道徳的原則）と浅い特性（例えば表面的な属性）の間の相関を意図的に利用した実験設計を用いています。訓練フェーズでは、LLMに人間の好みデータを提示し、テストフェーズでは相関を壊してモデルの深い価値一般化率（DVGR）を測定します。9つの異なるモデルの平均DVGRは0.30であり、すべてのモデルが深い価値を偶然以下でしか一般化しませんでした。