AMAuT: 柔軟で効率的なマルチビュー音声トランスフォーマーフレームワークの一からの学習

AMAuT: A Flexible and Efficient Multiview Audio Transformer Framework Trained from Scratch

この記事では、音声処理の新しいフレームワーク「AMAuT（Augmentation-driven Multiview Audio Transformer）」が紹介されています。従来の音声モデルは固定された入力率や音声の長さに依存しており、その再利用性が制限されていました。AMAuTは、事前学習された重みを必要とせず、任意のサンプルレートや音声長に対応するフレームワークとして開発されています。主な特徴は、1) ロバスト性を高めるための拡張駆動型マルチビュー学習、2) 時間的エンコーディングの安定性を確保するためのCNNボトleneck設計、3) 双方向コンテキスト表現のためのトークン、4) 推論の信頼性を向上させるためのテスト時適応／拡張です。実験結果では、複数の公開ベンチマークにおいて99.8％の精度を達成し、内蔵された計算資源での効率的な音声分類が可能であることが示されています。