この記事では、トランスフォーマーベースの言語モデルにおけるイディオム表現の処理を新しい手法で調査しています。まず、修正されたパスパッチングアルゴリズムを用いて回路を発見し、イディオム処理の特異な計算パターンを特定しました。特に「イディオムヘッド」と呼ばれる注意ヘッドが、様々なイディオムで頻繁に活性化することや、前の処理によって強化されたイディオムトークン間の注意(「拡張受信」と名付けられています)を見出しました。これらの現象を分析し、発見された回路の一般的な特徴を、トランスフォーマーが計算効率と頑健性のバランスを取るメカニズムとして探求しました。最終的に、これらの知見は、トランスフォーマーが非構成的な言語を扱う方法に関する洞察を提供し、より複雑な文法構造の処理の理解への道筋を示唆しています。