arXiv cs.AI

nnterp: トランスフォーマーのメカニズム解釈のための標準化インターフェース

nnterp: A Standardized Interface for Mechanistic Interpretability of Transformers

http://arxiv.org/abs/2511.14465v1


nnterpはトランスフォーマーの内部構造を分析するための標準化されたインターフェースを提供するツールです。従来のアプローチでは、独自の実装が必要であるため、一貫したインターフェースを維持する一方で、各アーキテクチャに対する手動の適応を行う必要があり、それが数値的不一致を引き起こすことがあります。本研究では、HuggingFaceの実装を保持しつつ、NNsightの周りに軽量なラッパーであるnnterpを開発しました。これにより、研究者は一度介入コードを書けば、16のアーキテクチャファミリーにわたる50以上のモデルバリアントに展開できるようになります。nnterpは、一般的な解釈手法の実装を備えており、注意確率への直接アクセスを提供するなど、メカニズム解釈における正確性と使いやすさのギャップを埋めることを目指しています。