説明可能なAIのためのモデル説明グラフにおけるコミュニティ検出

本研究では、特徴寄与法（SHAPやLIMEなど）が個別の予測を説明する際に見逃しがちな高次の構造、つまり協調的に作用する特徴のセットを対象に、Modules of Influence（MoI）という新しい枠組みを提案しています。MoIは、特定のインスタンスに基づく寄与からモデル説明グラフを構築し、コミュニティ検出手法を用いて予測に共同で影響を与える特徴モジュールを特定します。さらに、これらのモジュールがバイアス、冗長性、因果関係のパターンにどのように関連するかを定量化します。合成データセット及び実データセットを通じて、MoIは相関した特徴群を明らかにし、モジュールレベルでの除外試行を通じてモデルのデバッグを向上させ、特定のモジュールに対するバイアスの露出を特定します。また、モジュール発見のベンチマーク用の安定性や相乗効果に関する指標も公開しています。