arXiv cs.AI

思考の動く画像:チャールズ・S・パースの原稿における視覚的知識の抽出と視覚言語モデル

Moving Pictures of Thought: Extracting Visual Knowledge in Charles S. Peirce's Manuscripts with Vision-Language Models

http://arxiv.org/abs/2511.13378v1


本研究では、チャールズ・S・パースの原稿における図表を視覚言語モデル(VLM)を用いて分析し、視覚的知識の抽出を試みています。パースは図表を論理的推論や説明に不可欠なものと位置付けており、彼の原稿はテキストと複雑な視覚的要素が組み合わさったもので、解析の難しさがあります。本稿では、原稿のページレイアウトをセグメント化し、各セグメントをIIIF準拠の注釈に再接続し、図を含む部分をVLMに送信するワークフローを提案しています。また、パースの記号論的枠組みを用いて、図に関する重要な知識を抽出し、簡潔なキャプションを作成するためのプロンプトも設計しました。最後に、これらのキャプションを知識グラフに統合し、複合的な情報源内で図表内容の構造化された表現を可能にしています。