この記事では、歴史的および低リソースな自然言語処理(NLP)における課題を解決するために、大規模言語モデル(LLM)を活用してフランス語(16世紀から20世紀)と中国語(1900年から1950年)の歴史的テキストに対するグラウンドトゥルースアノテーションを生成する方法を紹介しています。著者たちは、生成したグラウンドトゥルースを用いてspaCyのファインチューニングを行い、品詞タグ付け、基本形抽出、命名エンティティ認識において顕著な改善を達成しました。この研究結果は、特定のドメインに特化したモデルの重要性を示すとともに、比較的限られた合成データであっても、リソースが限られたコーパスに対するNLPツールの改善が可能であることを明らかにしています。