本研究では、現実世界における歌声変換(SVC)のアプリケーションにおいて、環境ノイズや表現力の要求が大きな課題であることに注目し、R2-SVCというロバストで表現力豊かなSVCフレームワークを提案します。従来の技術はクリーンなデータを基にしており、実際の環境での適用が難しいため、まず基本周波数のランダムな変動や音楽分離アーティファクトのシミュレーションを通じてロバスト性を向上させています。また、洗練された歌声データを使用して話者の特徴を強化し、NSFモデルを統合することで、変換された歌声の自然さと制御性を高めています。R2-SVCは、クリーンおよびノイジーな条件下において、複数のSVCベンチマークで最先端の結果を達成しています。