LLMはその深さをどのように活用しているのか？

本論文では、大きな言語モデル（LLM）がその深さを均一には活用していないという新たな証拠を示しつつ、層ごとの予測ダイナミクスに関する詳細な理解が欠けていることを指摘しています。著者らは、複数のオープンウェイトモデルの中間表現を推論中に追跡し、LLMの深さの構造的かつ微妙な利用法を明らかにしました。提唱された「推測-改良」フレームワークでは、初期層では高頻度トークンが統計的推測として主に使用されることが示されています。文脈情報が深层に進むにつれ、これらの初期推測は文脈に適したトークンに洗練されます。さらに、品詞分析や事実記憶タスク、選択肢タスクのケーススタディを通じて、層の深さの動的な使用法を詳しく分析し、LLMの成功した予測を支える層ごとの計算に光を当てています。これにより、トランスフォーマーベースのモデルの計算効率向上に寄与する洞察を得ることができます。