arXiv cs.AI

モンテカルロ期待脅威(MOCET)スコアリング

Monte Carlo Expected Threat (MOCET) Scoring

http://arxiv.org/abs/2511.16823v1


AIの安全性レベル(ASL)の脅威を評価し、計測することは、リスクを許容範囲内に保つための安全策を導入するための重要なステップです。ASL-3+モデルは、特にバイオセキュリティの分野で新たなリスクをもたらす可能性があります。従来の評価メトリクス(LAB-BenchやBioLP-benchなど)は、モデルの向上やドメイン知識を評価できますが、「実世界のリスク」をより良く考慮するメトリクスが必要です。この記事では、MOCETという新しい評価メトリクスを提案しています。MOCETは、解釈可能で二重にスケーラブル(自動化可能かつ無限対応可能)な指標であり、実世界のリスクを定量化する能力を備えています。これにより、急速に進化する大規模言語モデル(LLM)の安全性に関する議論を充実させることを目指しています。