mmBERT: モダンBERTが多言語対応に

mmBERTは、1800以上の言語で3T＋トークンのテキストを用いて訓練された最先端の大規模多言語エンコーダーモデルです。このモデルは、従来の多言語モデルに比べて大幅な性能向上とスピード改善を実現し、XLM-Rを初めて超える成果を挙げています。また、低資源言語の効果的な学習戦略も開発されています。mmBERTは、モダンBERTのアーキテクチャを基にしており、効率的な多言語学習を実現するための新しいコンポーネントが加わっています。訓練データは、高品質なウェブクロールデータから構成されており、従来の多言語エンコーダーよりも英語の比率を高めています。訓練は、リソースが限られた言語のデータを有効活用するために段階的に進められ、新たな言語を追加することでデータの質を保ちながら拡張しています。