ARETEは、大規模言語モデルを活用して生物種の出現データを自動的に抽出するためのオープンソースRパッケージです。このパッケージは、光学文字認識(OCR)から外れ値の検出、データの整形までの一連のデータ抽出と検証プロセスを統合しています。著者たちは、ARETEの有用性を示すために、GBIFデータを用いたクモの100種の分布マップを比較し、新たに抽出されたデータが既存の出現範囲を平均3桁拡張したことを明らかにしました。この手法により、未開拓の出現データへの迅速なアクセスが可能となり、研究者は資源の優先順位をより効果的に設定できるようになります。ARETEは環境保護や絶滅リスク評価に向けた空間計画に重要な影響を与える可能性があります。