本研究では、実ユーザーを対象にしたウェブ展開型ツール強化LLM健康コーチを評価しています。7人のユーザーによる280回の評価ターンを基にオフラインポリシー評価(OPE)を行ったところ、一様な重いツールポリシーがログの平均値を上昇させる一方で、特に健康リテラシーが低く自己効力感が高いユーザーに対しては逆効果であることがわかりました。また、小規模なシミュレーターを用いた結果、初期の情報獲得ボーナスを追加することで特性の特定が早まり、目標達成率や成功率が向上することが示されました。これらの結果は、個別化への評価主導のアプローチを提案しており、ジェネレーターを固定し、サブグループに配慮した意思決定ヘッドを学習し、常にサブグループが抱える問題を明確にすることが重要であることを示唆しています。