言語モデルにおける数字操作のメカニズムを解明する

最近の研究では、異なる大規模言語モデル（LLM）が数字のために類似した正確な入力埋め込み表現に収束することが示されています。これは、LLMが数値情報を扱うときに誤った出力を生成する傾向があるという文献の報告と矛盾しています。本研究では、この矛盾を解明するために、言語モデルがどのように数字を操作し、これらのメカニズムの正確性の下限を定量化することを目指します。数値の扱いにおける誤りにもかかわらず、異なる言語モデルは系統的で高精度かつ普遍的な数字の表現を学習します。この結果、各LLMのための普遍的なプローブを作成し、出力の誤りの原因を特定の層に追跡できるようになります。我々の結果は、事前訓練されたLLMがどのように数字を操作するかの基本的理解を提供し、LLMのアーキテクチャの精度向上の可能性を示唆しています。