本研究では、LLM(大規模言語モデル)を審査官として活用する新しいパラダイムを提案し、評価基準を精練するための多様で代表的なデータが不足している問題に対処します。著者らは、ユーザーが設定可能なドメインや人物像、長さ、望ましい結果を反映したテストケースを生成できる合成データ生成ツールを開発し、既存のテストケースのAI支援インライン編集もサポートしています。ユーザー調査では、83%の参加者が手動でテストケースを作成・選択する代わりにこのツールの使用を好み、効率的に多様な合成データを生成できることが示されました。生成された合成データは、評価基準の精練や人間の好みに合わせる点で手作業で作成されたデータと同等の効果があり、特に効率とスケーラビリティが重要な状況において有望な代替手段であることが明らかになりました。