この記事では、LLM(大規模言語モデル)の自信がモデルの不確実性と回答の信頼性を示す有用な指標であることを述べていますが、従来の研究は主に単一ターンのシナリオに焦点を当ててきました。著者らは、LLMベースの検索エージェントが、自らの行動の後に言語化された自信スコアを通じて自信を伝えられるかどうかを調査しました。その結果、高自信の状態ではタスクの精度が大幅に向上する一方で、低自信の場合には精度がほぼゼロになることが明らかになりました。この観察に基づき、著者らは自信スコアを使用して回答の質を判断し、満足する自信レベルに達するまでモデルが再度試行することを促進する「テスト時スケーリング(TTS)」手法を提案しました。提案された手法は、トークン消費を大幅に削減する一方、既存の固定予算TTS手法と比較して競争力のあるパフォーマンスを示しました。