Step-Audio-EditX 技術報告

Step-Audio-EditXは、感情や話し方、パラリンガリスティクスを含む表現豊かで反復的な音声編集が可能な初のオープンソースのLLMベースのオーディオモデルです。本モデルは、埋め込みベースの事前情報や補助モジュールを必要とせず、大きなマージンを持つ合成データの利用によって革新的なアプローチを実現しています。この大きなマージン学習により、音声の反復制御や高い表現力を可能にし、従来の表現レベルの解明からの大きな転換を示しています。評価結果では、Step-Audio-EditXが感情編集や細かい制御タスクにおいてMiniMax-2.6-hdおよびDoubao-Seed-TTS-2.0を上回ることが示されています。