GoChat: 階層的強化学習による目的志向型チャットボット

本論文では、目的志向型チャットボット（GoChat）を提案する。従来の対話システムは、手作りのルールやコストのかかるラベル付きデータセットに依存しているが、GoChatはオフラインのマルチターンダイアログデータセットから長期的利益を最大化するためのエンドツーエンド型トレーニングフレームワークを使用する。このフレームワークは、階層的強化学習（HRL）を採用し、高レベルのポリシーが会話を最終目標に導くためのサブゴールを決定し、低レベルのポリシーがそれに基づいて応答を生成する。金融分野の実際のダイアログデータセットにおける実験では、GoChatは応答生成の質と目標達成率の両方において従来の手法を上回る成果を示した。