arXiv cs.LG

N-GLARE: 非生成的潜在表現効率的LLM安全評価器

N-GLARE: An Non-Generative Latent Representation-Efficient LLM Safety Evaluator

http://arxiv.org/abs/2511.14195v1


N-GLARE(非生成的、潜在表現効率的LLM安全評価器)は、大規模言語モデル(LLM)の安全性の評価方法として提案されています。従来のレッドチーミング手法はオンライン生成とブラックボックス出力分析に依存しているため、高コストやフィードバックの遅延といった問題があり、新モデルの迅速な診断には適していません。N-GLAREは、モデルの潜在表現のみを使用して動作し、完全なテキスト生成を避けます。潜在表現の動的特性をAPT(Angular-Probabilistic Trajectory)の分析を通して特徴づけ、JSS(Jensen-Shannon Separability)メトリックを導入します。40モデルと20のレッドチーミング戦略に対する実験から、JSSメトリックはレッドチーミングによる安全性ランキングと高い一致を示し、1%未満のトークンコストで従来の大規模レッドチーミングテストの傾向を再現します。この方法はリアルタイム診断のための効率的な出力のない評価手法を提供します。