本研究では、音声通信モデルにおける自然な表現力の欠如を解決するために、DeEAR(Decoding the Expressive Preference of eAR)という新しいフレームワークを提案しています。DeEARは、非主観的な評価指標を用いずに、感情、抑揚、自然さの3つの次元から音声の表現力を評価し、人間の知覚と高い整合性を持つ客観的スコアに変換します。これにより、500件未満のアノテーションサンプルを用いても、表現力評価の信頼性が確保され、S2Sモデル間の表現力のギャップを明確に区別できます。また、14,000の表現的発話を選定し、S2Sモデルの表現スコアを向上させることに成功しました。この成果は、今後の表現力評価の基準設定やデータの整理に寄与する可能性があります。