arXiv cs.LG

目的駆動型対話の多ターン無監視評価

Unsupervised Evaluation of Multi-Turn Objective-Driven Interactions

http://arxiv.org/abs/2511.03047v1


この記事では、AIエージェントと人間の間で目的に基づく対話が行われる際に、これらのシステムの評価が難しい理由を説明しています。特に、データが複雑でラベル付けされていないことや、人間によるアノテーションがスケールで実現しにくいことが挙げられています。この問題を解決するために、著者たちは目的駆動型対話のための初の無監視評価指標を提案しました。これらの指標は、ラベル付けされていない対話データの統計特性を利用し、調整された大規模言語モデル(LLM)を通じて分布の変化に適応します。ユーザーの目標をラベル付けし、目標達成度を測定し、LLMの不確実性を定量化するための手法を開発しました。このアプローチは、オープンドメインおよびタスク特化型の対話データで検証されています。