本論文では、インド工科大学マドラスのSPRING LabがASRU MADASR 2.0チャレンジのために開発した音声認識(ASR)システムの概要を説明しています。このシステムは、8つの言語と33の方言の中で、話者の発話の言語と方言の予測精度を向上させることに焦点を当てています。Track 1およびTrack 2に参加し、追加データの使用を制限し、ゼロから多言語システムを開発しました。特に、音素共通ラベルセット(CLS)を中間表現として使用したマルチデコーダーアーキテクチャを用いた新しいトレーニングアプローチを提案し、基本性能を上回る成果を上げました。また、音素空間で得た成果を、対応するグラフェム表現に戻す際の方法についても議論しています。最終的に、3つの言語で基本ラインを超えるWER/CERを達成し、全参加チームの中で最も高い言語IDおよび方言IDの精度を記録しました。