全言語自動音声認識: 1600言語以上の自動音声認識の進展

MetaのAIリサーチチームは、1600以上の言語に対応する新しい全言語自動音声認識（ASR）モデルを発表しました。このモデルは、500のリソースが乏しい言語を含み、コミュニティ主導のフレームワークに基づいています。ユーザーは自分のサンプルを使って新しい言語を追加でき、350のサポートされない言語に対する音声の転写コレクションである「Omnilingual ASR Corpus」も提供しています。このシステムは、従来の音声認識が高リソース言語に集中している現状を克服し、音声をテキストに変換できる技術の普及を目指しています。また、7Bパラメータのwav2vec 2.0モデルのオープンソース化や、自動音声認識における革新的なアプローチが性能を著しく向上させています。これにより、多様な言語間のコミュニケーションを促進し、デジタル格差の縮小を図っています。