OutSafe-Bench: 大規模言語モデルにおける多モーダル攻撃的コンテンツ検出のためのベンチマーク

OutSafe-Bench: A Benchmark for Multimodal Offensive Content Detection in Large Language Models

本論文では、マルチモーダル大規模言語モデル（MLLM）の安全性に関する懸念を受けて、OutSafe-Benchという新たなベンチマークを提案しています。OutSafe-Benchは、18,000以上のバイリンガルテキストプロンプト、4,500の画像、450の音声クリップ、および450のビデオを含む大規模なデータセットから成り、9つの重要なコンテンツリスクカテゴリーにわたって体系的に注釈が付けられています。さらに、異なるカテゴリー間のリスクをモデル化・評価するための新しい指標、マルチディメンショナルクロスリスクスコア（MCRS）を導入し、公平で robustな評価を実現するFairScoreフレームワークを提案しています。この研究では、最先端の9種類のMLLMを評価した結果、依然として重大な安全性の脆弱性が見つかり、今後の強固なセーフガードの必要性が浮き彫りになっています。