大規模言語モデル(LLM)は、一般的な情報を生成する能力に優れていますが、特定のユーザーの好みに基づくタスクでは限界があります。特に、レストランの推薦や旅行の計画など、ユーザーはすべての好みを明示的に伝えることが少なく、多くの好みが潜在的な状態に残ります。本研究では、対話を通じてこの潜在情報を発見し推論する能力を評価するためのベンチマークを提案しています。これは、「20 Questions」ゲーム、パーソナライズされた質問応答、パーソナライズドテキスト要約という三つの設定を通じて実施されます。研究結果によると、LLMは対話を通じて潜在情報を明らかにすることができるものの、成功の程度はタスクの複雑さやトピック、隠された属性の数によって大きく異なることが示されました。本ベンチマークは、個別インタラクションにおける潜在情報発見の体系的な研究のための第一歩を提供しています。