arXiv cs.LG

非構造データのためのマルチモーダルRAG:モダリティ対応知識グラフを活用したハイブリッドリトリーバル

Multimodal RAG for Unstructured Data:Leveraging Modality-Aware Knowledge Graphs with Hybrid Retrieval

http://arxiv.org/abs/2510.14592v1


現在のリトリーバル強化生成(RAG)システムは主に単一モーダルのテキストデータで動作しており、非構造的なマルチモーダル文書に対する効果が制限されています。本研究では、マルチモーダル質問応答を目的としたモダリティ対応ハイブリッドリトリーバルアーキテクチャ(MAHA)を提案しています。MAHAは、密なベクトル検索と構造化されたグラフ探索を統合し、知識グラフが異なるモーダリティ間の意味と関係をエンコードします。この設計により、さまざまなモーダリティに対して意味的に豊かで文脈に即したリトリーバルが可能になります。複数のベンチマークデータセットでの評価では、MAHAは従来の方法に対して大幅な性能向上を示し、ROUGE-Lスコア0.486を達成しました。これにより、MAHAの効果的なマルチモーダルリトリーバル能力が強調され、非構造的なマルチモーダルデータに対するモダリティ対応の推論を可能にするスケーラブルで解釈可能なリトリーバルフレームワークを確立しました。