一般目的の音声表現学習のための音声-言語事前学習の再考

Revisiting Audio-language Pretraining for Learning General-purpose Audio Representation

本研究は、音声-言語事前学習が一般目的の音声理解において有望であるにもかかわらず、視覚モデルと比較して未開発であることを指摘します。既存の音声-言語モデルは主に検索タスクに適しており、一般用途のエンコーダとしての採用が限られています。私たちは、大規模音声-テキストコーパスの不足、多様性の欠如、系統的な探査と評価の不足という3つの主要な障壁を特定しました。この問題を解決するために、10.7Mの多様なオープンソース音声-テキストコーパスを集約したCaptionStewデータセットを導入し、音声表現学習のための初の包括的評価を行いました。その結果、音声-言語事前学習は競争力のある移転可能な表現を生成することが示されました。データスケーリング実験により、対照学習は小規模データで優れた効率を発揮し、キャプショニングは言語に関わる音声理解タスクでのスケーラビリティに優れることが明らかになりました。これにより、音声-言語事前学習が一般目的音声表現への有望なルートであることが確認されました。