歴史的書籍におけるラテン語の検出：大規模言語モデルによるマルチモーダルベンチマーク

Detecting Latin in Historical Books with Large Language Models: A Multimodal Benchmark

本論文は、さまざまなレイアウトを持つ混合言語の歴史的文書からラテン語の断片を抽出する新たなタスクを提案しています。著者たちは、724ページからなる注釈付きのマルチモーダルデータセットに基づいて、大規模基盤モデルの性能をベンチマーク化し評価しました。研究結果は、現代のモデルによる信頼性のあるラテン語検出が可能であることを示しています。また、この研究は、ラテン語の検出におけるこれらのモデルの能力と限界に関する初めての包括的分析を提供しています。データセットとコードは公開予定です。