最近のビートおよびダウンビート追跡モデル(RNN、TCN、トランスフォーマーなど)は、フレームレベルのアクティベーションを出力しています。本研究では、このタスクを物体検出として再定義し、ビートとダウンビートを時間的「物体」としてモデル化することを提案します。物体検出器FCOSを1次元オーディオに適応させ、元のバックボーンをWaveBeatの時間的特徴抽出器に置き換え、マルチスケールの時間的パターンを捉えるために特徴ピラミッドネットワークを追加しました。このモデルは、重複するビート・ダウンビートの間隔を信頼度スコアとともに予測し、最終的な予測を選択するための非最大抑制(NMS)を行います。このNMSステップは、従来のトラッカーにおけるDBNと類似の役割を果たしますが、よりシンプルで直感的です。標準音楽データセットで評価した結果、我々のアプローチは競争力のある結果を達成しており、物体検出技術が最小限の適応で音楽ビートを効果的にモデル化できることを示しています。