本研究は、大規模音声言語モデル(LALMs)が音源の運動をどう認識するかに焦点を当てています。近年、LALMsは音声認識や音声キャプション、質問応答において進展を見せていますが、空間的動態を認識する能力には限界があります。著者たちは、音声運動理解を評価するための新しいベンチマーク「AMPBench」を導入し、LALMsがバイノーラル音声から音源の方向や軌跡を特定する能力を検証しました。結果、現在のモデルは運動の手がかりを一貫して認識するのが難しく、精度は平均50%未満であることが明らかになりました。この研究は、人間とモデル間の聴覚的空間推論のギャップを強調し、今後のLALMsの空間認知能力を向上させるための新たな視点を提供しています。