トークンに基づいて訓練され、概念に基づいてキャリブレーションされた：LLMにおける意味的キャリブレーションの出現

Trained on Tokens, Calibrated on Concepts: The Emergence of Semantic Calibration in LLMs

本記事では、ラージ・ランゲージ・モデル（LLM）がその出力に対してどのような信頼度の見積もりを持つかについての課題を探求しています。特に、基盤となるLLMが次のトークンを予測する能力はあるものの、実際の意味に基づく自信の評価には乏しいとされています。しかし、特定のサンプリングに基づく意味的キャリブレーションの概念を用いることで、これらのモデルがオープンドメインの質問応答タスクにおいて有意義な自信を持つことが示されました。理論的な寄与として、次のトークン予測の副産物として意味的キャリブレーションがどのように生じるかを示すメカニズムを定義しています。実験を通じて、基盤LLMが質問応答タスク全体で意味的にキャリブレートされていること、強化学習による指示調整がこのキャリブレーションを破ること、及び連鎖的思考がキャリブレーションを壊すことを確認しました。