arXiv cs.AI

回路の洞察:活性化を超えた解釈可能性への展望

Circuit Insights: Towards Interpretability Beyond Activations

http://arxiv.org/abs/2510.14936v1


この記事では、解釈可能なAIおよび力学的解釈可能性の分野において、神経回路網の内部構造を明らかにするための手法について述べています。既存の手法は手動検査に依存しているため限界がありますが、自動化された解釈はスケーラビリティを提供します。著者らは、新たに提案するWeightLensおよびCircuitLensという2つの補完的手法を用いることで、活性化に依存しない分析を進め、特徴の重みから直接情報を引き出すWeightLensと、要素間の相互作用を通じて特徴の活性化がどのように生じるかを明らかにするCircuitLensを紹介します。これにより、回路のメカニズムに対する解釈性の強化と効率的かつ高品質な分析が可能になるとしています。