arXiv cs.LG

バイノーラル音源定位のための時間周波数特徴の体系的評価

Systematic evaluation of time-frequency features for binaural sound source localization

http://arxiv.org/abs/2511.13487v1


本研究は、バイノーラル音源定位(SSL)における時間周波数特徴設計の体系的な評価を実施し、特徴選択がモデルのパフォーマンスに与える影響をさまざまな条件で調査しています。特に、振幅ベースの特徴(マグニチュードスペクトログラム、耳間レベル差 - ILD)と位相ベースの特徴(位相スペクトログラム、耳間位相差 - IPD)の組み合わせを用いた畳み込みニューラルネットワーク(CNN)モデルの性能を評価しています。異なる条件下でのデータに対する評価では、慎重に選ばれた特徴の組み合わせがモデルの複雑さを高めることよりも優れた性能を示すことが多いとされています。特定の条件下ではILDとIPDの2つの特徴セットで十分ですが、さまざまなコンテンツに対する一般化には、チャネルスペクトログラムとILDおよびIPDを組み合わせた豊富な入力が必要です。最適な特徴セットを使用することで、低複雑性のCNNモデルが競争力のあるパフォーマンスを実現することが示されました。本研究は、バイノーラルSSLにおける特徴設計の重要性を強調し、ドメイン固有および一般目的の定位に関する実用的な指針を提供しています。