音声AIエージェントの商業展開が進む中、テストの信頼性を確保するための体系的な方法は未熟であり、組織は自身のテスト方法(内部ツールや外部プラットフォーム)が実際に機能しているかを客観的に評価できないという重大な測定のギャップが存在しています。本研究では、人間中心のベンチマークを通じて音声AIテストの品質を評価するための初の体系的なフレームワークを提案します。この方法論は、リアルなテスト会話を生成すること(シミュレーションの質)とエージェントの応答を正確に評価すること(評価の質)という二重の課題に取り組みます。フレームワークは、これまでの心理測定技術を組み込み、再現可能なメトリックを提供します。さらに、3つの商業プラットフォームの包括的な実証評価を行い、統計的に有意なパフォーマンスの違いを明らかにしました。このフレームワークは、テスト能力を実証的に検証し、信頼できる音声AIの大規模展開に向けた測定基盤を提供します。