ニューラルネットワークの強固な堅牢性特性の検証

本論文では、AIの調整と安全性における重要な問題である堅牢性の検証について述べています。特に、ニューラルネットワークが安全性が求められるシステムで広く使用される中、入力のわずかな変更に対しても決定が変わらないかを確認するためのローカル堅牢性に関する既存の手法には限界があることを指摘しています。著者らは、ニューラルネットワークの出力に対する信頼度を考慮に入れた堅牢性の新たな変種を指定且つ検証するための一般化されたフレームワークを提案します。簡潔な文法を用いた仕様フレームワークを構築し、新たな堅牢性の変種を捕らえる柔軟性を持たせています。さらに、追加の層を加えることでこれらを均一に検証する新たな技術を開発し、8870のベンチマークを用いた実験を通じて、従来の手法と比較して顕著な改善を示しています。