「PolyNorm」は、テキスト音声合成(TTS)システムにおけるテキスト正規化(TN)のための新しいアプローチです。従来のTNシステムは高い精度を持つものの、大量のエンジニアリング作業を必要とし、言語のカバレッジに課題がありました。この研究では、大型言語モデル(LLM)を用いたプロンプトベースの手法を提案し、手動で作成されたルールへの依存を減らし、さまざまな言語に適用できるようにしました。また、自動データキュレーションと評価のための言語非依存のパイプラインを提供し、多様な言語での実験を可能にしました。8つの言語での実験では、既存のシステムと比較して単語誤り率(WER)が一貫して減少することが確認されました。この研究をさらに推進するために、多様なテキスト正規化現象をカバーする「PolyNorm-Benchmark」という多言語データセットも公開しました。