本研究では、NVIDIAのFastConformerアーキテクチャに基づいた新しいルーマニア語自動音声認識(ASR)システムを提案します。このシステムは、主に弱い監督付き転写を用いた2600時間以上の音声データでトレーニングされています。ハイブリッドデコーダーを利用し、Connectionist Temporal Classification(CTC)とToken-Duration Transducer(TDT)の分岐を組み合わせて、グリーディ方式やCTCビームサーチなど様々なデコーディング戦略を評価しました。結果として、ルーマニア語の評価ベンチマークで最先端のパフォーマンスを達成し、従来の最良システムと比較して最大27%の相対的WER削減を実現しました。さらに、改良された転写精度を持ちながら、低遅延のASRアプリケーションに適した実用的なデコーディング効率を示しています。