arXiv cs.LG

ComProScanner: 科学文献からの構成-特性構造データ抽出のためのマルチエージェントベースのフレームワーク

ComProScanner: A multi-agent based framework for composition-property structured data extraction from scientific literature

http://arxiv.org/abs/2510.20362v1


本記事では、科学文献から構成および特性に関する構造化データを抽出するためのマルチエージェントプラットフォーム「ComProScanner」を紹介しています。近年の大規模言語モデルの発展により、科学的テキストからの知識抽出が革新的に進化しましたが、ユーザーが科学文献からデータセットを構築、検証、視覚化するための自動化ツールは依然として限られています。本フレームワークは、化学組成や物理特性の抽出、検証、分類、視覚化を行い、論文に基づいた合成データと統合してデータベースを作成します。特に陶器の圧電材料に関するデータを抽出する実験において、DeepSeek-V3-0324が他モデルを上回る精度0.82を記録しました。このプラットフォームは、文献に埋もれた複雑な実験データを容易に抽出し、機械学習や深層学習データセットを構築するための使いやすいパッケージを提供します。