RLAIF-SPA: LLMベースの感情音声合成をRLAIFで最適化する

本論文では、テキストから音声への合成技術において、感情表現を強化する新たなフレームワーク「RLAIF-SPA」を提案しています。従来の方法では、コストがかかる感情アノテーションや、感情表現を十分に捉えられない間接的な目的の最適化に頼りがちでした。RLAIF-SPAは、AIフィードバックからの強化学習（RLAIF）メカニズムを組み込み、自動音声認識（ASR）と大規模言語モデル（LLM）を利用して意味的正確性と音韻的・感情的ラベルの整合性を評価することで、生成される音声の知覚的な自然さと感情表現を直接的に最適化します。実験では、Libri Speech データセットを用いてRLAIF-SPAが他の手法と比較して優れた結果を示し、特に人間評価において改善を確認しました。