arXiv cs.AI

Pharos-ESG: ESGレポートの多モーダル解析、文脈的ナレーション、および階層ラベリングのフレームワーク

Pharos-ESG: A Framework for Multimodal Parsing, Contextual Narration, and Hierarchical Labeling of ESG Report

http://arxiv.org/abs/2511.16417v1


本記事では、環境・社会・ガバナンス(ESG)に関する報告書の解析に向けて、Pharos-ESGという新たなフレームワークを提案しています。ESGレポートは、その不規則なレイアウトや長文のために情報を理解するのが困難であるため、このフレームワークは、レポートを構造化された形式に変換するために多モーダル解析、文脈的ナレーション、および階層的ラベリングを用いています。具体的には、レイアウトの流れに基づく読み順モデリングや、目次に基づいた階層意識型セグメンテーションを組み合わせ、視覚要素を自然言語に変換する多モーダル集約パイプラインを提供します。さらに、ESG、GRI、感情ラベルを使って出力を豊かにし、分析的な要求に適合した注釈を生成します。広範な実験により、Pharos-ESGは従来の文書解析システムや一般的な多モーダルモデルを上回る性能を示しています。また、中国本土、香港、米国市場におけるESGレポートの大規模公開データセット「Aurora-ESG」も発表しています。