この記事では、MonkeyOCR v1.5の技術報告が紹介されています。この新しいOCRシステムは、複雑なレイアウトや多層テーブル、埋め込まれた画像や数式、さらにはページを跨ぐ構造を持つ実世界の文書に対応するために設計されています。MonkeyOCRは、レイアウト理解とコンテンツ認識を向上させるための二段階の解析パイプラインを採用しています。第一段階では、大規模なマルチモーダルモデルが文書のレイアウトと読み順を予測し、視覚情報を利用して構造的および順序的な整合性を確保します。第二段階では、検出された領域内でのテキスト、数式、テーブルの局所的な認識を行い、高い視覚的忠実度を維持しつつエラーの伝播を減少させます。特に、複雑なテーブル構造に対しては、視覚的一貫性に基づく強化学習手法が提案され、手動アノテーションなしで認識精度を向上します。実験により、MonkeyOCR v1.5は、視覚的に複雑な文書シナリオにおいても優れた堅牢性を示し、従来のシステムを超える性能を達成したことが示されています。