arXiv cs.LG

LLMエージェントのための基盤テスト時適応

Grounded Test-Time Adaptation for LLM Agents

http://arxiv.org/abs/2511.04847v1


大規模言語モデル(LLM)に基づくエージェントは、未知のウェブサイトや新しい機能セットなど、複雑な新環境に一般化することが難しい。この課題は、前訓練とテスト時の条件との基本的な不一致から生じており、主に二つの失敗モードが存在する。まず、環境特有のコンポーネントに対する構文的な誤解(観察フォーマットなど)があり、次にテスト時に明らかになる状態遷移の動力学に対する意味的な誤解がある。これらの問題に対処するために、著者たちは環境特有の情報を活用した二つの適応戦略を提案している。一つはオンライン分布適応法で、環境のニュアンスを学習してモデルの出力分布を偏らせる軽量な適応ベクトルを導入すること。もう一つは、デプロイメント中に因果的動力学を学ぶための探索フェーズを用いた、デプロイ時動力学基盤法である。これらの手法は多様なエージェントベンチマークで評価されており、特に複雑な環境において有効性が示されている。