FlipVQA-Miner: 教科書からのページ間視覚質問応答マイニング

FlipVQA-Minerは、教科書や演習資料から高品質な質問応答（QA）及び視覚質問応答（VQA）ペアを自動抽出する手法を提案します。従来の大規模言語モデル（LLM）は、高品質な監視データが必要ですが、既存のデータセットはコストが高く、合成サンプルに依存しているため多様性が制限され、ハルシネーションが発生します。本研究では、レイアウトを意識したOCRとLLMベースの意味解析を組み合わせた自動化パイプラインを構築し、さまざまな文書タイプで正確かつ整列したノイズの少ないQA/VQAペアを生成します。このアプローチは、現実の教育コンテンツをスケーラブルに活用することを可能にし、LLMの推論能力向上に向けた合成データ生成の実用的な代替手段を提供します。すべてのコードとデータ処理パイプラインはオープンソースとして公開されています。