因果介入による神経ネットワークの異なる表現への対処

Addressing divergent representations from causal interventions on neural networks

この記事では、機械学習モデルの解釈性を向上させるために、因果的介入を用いてモデルの内部表現を操作する手法について議論しています。著者たちは、これらの介入が、モデルの自然な状態から外れた（異なる）表現を生成するかどうか、またその結果得られる説明がどれだけモデルの本来の姿を忠実に反映しているのかを検討しています。実証的な分析により、一般的な因果介入手法がモデルの内部表現を自然分布からずらすことが多いことを示しました。更に、異なる種類の変異について理論的に分析し、害のない変異と害を及ぼす変異の違いを明らかにしました。最後に、著者たちはCounterfactual Latent（CL）損失を修正して介入を自然分布に近づける手法を提案し、信頼性の高い解釈手法への道筋を示しています。