この記事では、AI安全に向けたマルチモーダル基盤モデルの安全性評価に関する新しい枠組み「ビジョン言語安全理解(VLSU)」を提案しています。従来のアプローチでは、視覚と言語の入力が別々に扱われ、両者を組み合わせた際のリスクが見逃されがちです。VLSUは、17の異なる安全パターンに基づき、マルチモーダルの安全性を細かく評価するための体系的なフレームワークを提供し、8187のサンプルを用いて検証を行いました。評価の結果、モデルは明確な単一モーダル信号では90%以上の精度を示す一方、共同での画像とテキストの推論が必要な場合には、精度が20-55%に低下することがわかりました。また、境界ケースに対しては、リスクを拒絶しつつも適切に対応するのが難しいことも明らかになりました。VLSUは、現在のモデルの共同理解の弱点を浮き彫りにし、今後の堅牢なビジョンと言語の安全性に関する研究の重要な基盤を提供します。