より優れた音声表現はより脳に似ている：モデルと脳の整合性を下流の聴覚タスクにおけるパフォーマンスと関連付ける

Better audio representations are more brain-like: linking model-brain alignment with performance in downstream auditory tasks

本研究では、人工ニューラルネットワーク（ANN）が脳の計算モデルとしての有効性を高める一方で、タスクパフォーマンスの向上が内部表現を脳の信号にどれだけ類似させるかを検討しています。36種類の音声モデルと脳活動の整合性を評価した結果、高性能な自己教師あり音声モデルは、従来のモデルよりも聴覚皮質活動をより正確に予測できることが分かりました。また、これらのモデルをHEAREvalベンチマークの6つの聴覚タスクで評価したところ、モデルの全体的なパフォーマンスと脳表現との整合性には強い正の相関が見られました。さらに、EnCodecMAEの事前学習中に音声と脳表現の類似性が進化する様子を分析した結果、脳の類似性が事前学習の初期から進行していくことが示され、これは自然音声データからの情報再構成を学ぶ際の副産物である可能性が示唆されました。