この記事では、責任あるAIの評価基準を提案する「RAISE」フレームワークについて詳述されています。AIシステムが高リスク分野に進出するにつれ、評価は予測精度だけでなく、説明可能性、公平性、堅牢性、持続可能性といった側面まで拡張する必要があります。RAISEは、これら4つの次元でモデルの性能を定量化し、単一の総合的な責任スコアに集約します。著者たちは、金融、ヘルスケア、社会経済における構造化データセット上で、3つの深層学習モデルを評価しました。その結果、MLPは持続可能性と堅牢性に優れ、トランスフォーマーは説明可能性と公平性に強みがある一方で環境コストが高く、Tabular ResNetはバランスのとれたプロファイルを示しました。この研究は、すべての責任基準において単一のモデルが優れているわけではないことを強調し、責任あるモデル選択のために多次元評価が必要であることを示しています。