arXiv cs.LG

FlipVQA-Miner: 教科書からのページ間視覚質問応答マイニング

FlipVQA-Miner: Cross-Page Visual Question-Answer Mining from Textbooks

http://arxiv.org/abs/2511.16216v1


FlipVQA-Minerは、教科書や演習資料から高品質な質問応答(QA)及び視覚質問応答(VQA)ペアを自動抽出する手法を提案します。従来の大規模言語モデル(LLM)は、高品質な監視データが必要ですが、既存のデータセットはコストが高く、合成サンプルに依存しているため多様性が制限され、ハルシネーションが発生します。本研究では、レイアウトを意識したOCRとLLMベースの意味解析を組み合わせた自動化パイプラインを構築し、さまざまな文書タイプで正確かつ整列したノイズの少ないQA/VQAペアを生成します。このアプローチは、現実の教育コンテンツをスケーラブルに活用することを可能にし、LLMの推論能力向上に向けた合成データ生成の実用的な代替手段を提供します。すべてのコードとデータ処理パイプラインはオープンソースとして公開されています。