arXiv cs.AI

会話型ハンガリー語音声認識に向けて:BEA-LargeおよびBEA-Dialogueデータセットの紹介

Toward Conversational Hungarian Speech Recognition: Introducing the BEA-Large and BEA-Dialogue Datasets

http://arxiv.org/abs/2511.13529v1


自動音声認識(ASR)の進展は、高リソース言語の大規模なデータセットによって大きく促進されてきましたが、ハンガリー語などの言語は自然な会話データの不足により、十分に代表されていません。このギャップを解消するために、新たにBEA-LargeおよびBEA-Dialogueという2つのデータセットを紹介します。BEA-Largeは、433人の話者から収集された255時間の自然なスピーチを加えたもので、詳細なセグメントメタデータが付与されています。一方、BEA-Dialogueは、85時間の自然な会話を含むデータセットで、話者に依存しないサブセットに分けられています。これらのデータセットに対して、公開されているASRモデルを用いて再現可能なベースラインを確立しました。特に、ファインチューニングされたFast Conformerモデルは、自然なスピーチでの単語誤り率を14.18%、繰り返しスピーチでは4.8%という低い数値を達成しました。会話型ASRの難しさを強調しつつ、データセットおよびベースラインの公開によりハンガリーの音声技術の進展を目指しています。