プローブの探求：概念整合性のための方法と指標

説明可能なAIにおいて、概念活性ベクトル（CAV）は、深層ニューラルネットワークの活性化空間内で人間が理解しやすい概念を検出するために直線分類器プローブを訓練することで得られます。多くの研究者は、高いプローブ精度がCAVがターゲット概念を忠実に表していることを示すと考えていますが、本研究では精度のみが概念整合性を測る信頼できる尺度ではないことを示します。むしろ、プローブは意図された概念よりも虚偽の相関を捉える傾向が強いことが明らかになります。そこで、空間的な線形帰属に基づく新しい概念ローカリゼーション手法を提案し、概念の不整合を検出・軽減するための既存の視覚化技術と比較します。また、概念整合性を定量的に評価するための三種類の指標（ハード精度、セグメンテーションスコア、拡張ロバスト性）を提案しました。結果として、空間的整合性を持つプローブを使用することで、概念整合性が一貫して向上することが分かりました。これにより、プローブの精度よりも整合性に基づいた評価指標の必要性が浮き彫りになりました。