arXiv cs.LG

音楽転写のためのヒストグラムベースの監督によるノートカウント

Count The Notes: Histogram-Based Supervision for Automatic Music Transcription

http://arxiv.org/abs/2511.14250v1


自動音楽転写(AMT)は、音声録音を象徴的な音楽表現に変換する技術です。従来のAMTでは、深層ニューラルネットワーク(DNN)の訓練には、厳密に整合したデータペアが必要で、これがコスト高で実用的でない場合が多いです。最近は、セグメントレベルの注釈を用いた弱い整合アプローチが注目されていますが、従来の手法では動的時間ワーピング(DTW)などに依存し、計算コストが高くなります。本稿では、CountEMという新しいAMTフレームワークを提案し、明示的な局所整合が不要であることを示します。これにより、注釈の手間を大幅に軽減しつつ、高い転写精度を維持することができます。実験の結果、CountEMは既存の弱い監督手法と比較しても優れた性能を示し、AMTの堅牢性や効率性を向上させています。