言語モデルは選ばなかった道を意識しているのか？トークンレベルの不確実性と隠れ状態の動力学

Are language models aware of the road not taken? Token-level uncertainty and hidden state dynamics

この論文では、言語モデルがテキスト生成時にトークンを選択することで異なる推論経路に進む可能性があり、それに伴う不確実性が定量化しにくいことを考察しています。著者たちは、生成中に取れる代替的な経路を言語モデルがどの程度認識しているかを検証しました。実験では、隠れた活性化状態を用いてモデルの不確実性をコントロールし、推論過程を予測しました。その結果、不確実性が高いトークンがあり、その時にモデルの活性化を調整することでモデルを的確に導けることが示されました。これは、モデルが特定の最終答案を選ぶ前に存在する代替経路が重要であることを示唆しており、隠れた活性化がモデルの未来の結果分布を予測する役割も果たすことが確認されました。