再帰特徴機械による自己回帰音楽生成の制御

音楽生成の制御は依然として大きな課題であり、既存の手法はモデルの再学習が必要だったり、聴覚的なアーチファクトを伴ったりします。本記事では、MusicRFMというフレームワークを導入し、再帰特徴機械（RFM）を活用して、事前に訓練された音楽モデルの内部アクティベーションを直接操作することで、詳細で解釈可能な制御を実現します。RFMはモデルの内部勾配を分析し、音楽的特性に対応する「概念方向」を生み出します。まず、軽量なRFMプローブを訓練し、MusicGenの隠れ状態内でこれらの方向を発見します。推論中にこれらの方向をモデルに注入し、リアルタイムで生成プロセスを導きます。この手法は、コントロールと生成品質のトレードオフをうまくナビゲートし、対象音楽ノートの生成精度を0.23から0.82に向上させつつ、テキストプロンプトの遵守をほぼ変わらず保つことに成功しています。