arXiv cs.LG

動物の鳴き声における連続構造の活用に向けて

Towards Leveraging Sequential Structure in Animal Vocalizations

http://arxiv.org/abs/2511.10190v1


この記事では、動物の鳴き声に含まれる連続的な構造が重要なコミュニケーション情報を伝えることに注目しています。多くの計算生物音響学の研究では、鳴き声のフレームレベルの特徴を時間軸に沿って平均化し、サブユニットの順序を無視しています。本研究では、自己教師付き音声モデルの表現から導出された離散的な音響トークンシーケンスが時間的情報を捕捉できるかを調査しています。HuBERTエンベディングから生成されたトークンシーケンスのペア間距離分析により、呼び出しタイプと発信者を識別できることが示され、$k$-最近傍法とレーヴェンシュタイン距離を用いたシーケンス分類実験も良好な結果を示しました。この研究は、動物の鳴き声の連続情報を活用するための代替的な特徴表現としての可能性を示唆しています。