知識に基づく視覚的質問応答：マルチモーダル処理、検索とフィルタリング

Knowledge-based Visual Question Answer with Multimodal Processing, Retrieval and Filtering

本記事では、視覚的質問応答（KB-VQA）における新しい方法論「Wiki-PRF」が提案されています。この手法は、処理、検索、フィルタリングの3段階に分かれています。第一段階の処理では、視覚ツールを活用して正確なマルチモーダル情報を抽出します。第二段階の検索では、視覚情報とテキスト特徴を統合し、効果的な知識検索を実現します。第三段階のフィルタリングでは、取得結果の関連性を高めるためのフィルタリングを行います。また、強化学習を用いて、回答の正確性と形式の一貫性を報酬信号として学習させた視覚言語モデルを導入し、モデルの推論能力と関連のないコンテンツフィルタリングの精度を向上させます。E-VQAおよびInfoSeekというベンチマークデータセットでの実験により、回答の質が大幅に向上し、最先端の性能を達成したことが示されています。