本論文では、請求書文書から構造化情報を抽出する手法を提案し、抽出データの精度を注釈付きのグラウンドトゥルースと比較するための評価指標(EM)のセットを提示しています。具体的には、スキャンまたはデジタル請求書の前処理を行い、DoclingとLlamaCloudサービスを用いて、請求書番号、日付、総額、ベンダーの詳細といった重要なフィールドを特定・抽出します。抽出プロセスの信頼性を確保するために、フィールドレベルの精度、一貫性チェックの失敗、完全一致の精度を含む堅牢な評価フレームワークを確立しています。提案された指標は、様々な抽出手法を比較する標準的な方法を提供し、フィールド特有の性能の強みと弱みを明らかにします。