オープンASRリーダーボード：新しい多言語及び長文トラックの動向と洞察

Open ASR Leaderboard: Trends and Insights with New Multilingual & Long-Form Tracks

2025年11月21日現在、オープンASRリーダーボードが150の音声テキストからテキストへのモデルと27,000のASRモデルを比較しています。従来のベンチマークは短文英語の転写に偏っており、多言語性能やロングフォームの音声モデルを見落としがちであるため、これらのトラックが追加されました。新しい研究によると、ConformerエンコーダーとLLMデコーダーの組み合わせが英語の転写精度で最高を記録し、精度と速度のトレードオフについても触れています。OpenAIのWhisper Large v3は強力な多言語モデルですが、英語に特化したモデルは他言語での性能を損なう傾向があります。リーダーボードは、さまざまな言語でのモデル比較を通じて、ASR技術の進展に寄与しています。