本論文では、重みがスパースなトランスフォーマーを通じて人間に理解可能な回路を構築することを目指しています。モデルの重みの大部分をゼロに制約することで、各ニューロンが限られた接続しか持たないようにし、手作業で設計したタスクに基づく詳細な回路を抽出します。この回路は、自然な概念に対応するニューロンや残余チャネルを含み、シンプルな接続が存在します。また、モデルをスケーリングすることで、能力と解釈可能性の間のトレードオフを探り、スパースモデルを数千万パラメータ以上に拡張することが解釈可能性を損なう課題として残っています。加えて、重みのスパースなモデルを新たに訓練するだけではなく、既存の密なモデルにも適応可能な初期結果を示しています。この研究は、高レベルの人間理解可能性を持つ回路を生成し、その妥当性を厳密に検証しています。