SafeRBench: 大規模推論モデルにおける安全性評価のための包括的ベンチマーク

SafeRBench: A Comprehensive Benchmark for Safety Assessment in Large Reasoning Models

この記事では、SafeRBenchという新しいベンチマークが提案されています。これは、大規模推論モデル（LRM）の安全性をエンドツーエンドで評価するためのもので、入力から中間推論、最終出力に至るまでの全プロセスを考慮します。まず、リスクカテゴリやレベルを導入した入力設計を行い、さまざまな危害の度合いを反映したバランスの取れたプロンプトを作成しました。次に、長い推論トレースを意味的に一貫性のある単位に分割するマイクロスラストチャンク機構を導入し、10の安全次元での詳細な評価を可能にします。また、LLMベースの評価を人間の注釈と照らし合わせて安全性の判断を確認しています。19のLRMに対する評価から、SafeRBenchはリスクや保護機構に関する詳細で多面的な安全性評価を提供することが示されました。