視覚的に基づいた推論のためのマルチタスク学習における胃腸VQA

本論文では、Medico 2025チャレンジに向けたマルチタスクフレームワークを提案しています。このフレームワークは、LoRAでチューニングされたFlorence-2モデルを利用し、視覚的質問応答（VQA）、説明生成、視覚的基盤の同時処理を可能にします。提案するシステムは、質問応答学習のためのKvasir-VQA-x1、構造化された医療推論を提供する合成強化説明データセット、視覚特徴とセグメンテーションマスクをリンクするテキストから領域へのペアという3つのキュレーションされたデータセットを統合しています。このようなマルチタスク設定により、モデルは視覚的基盤、推論、解釈を共同で学習でき、正確かつ解釈可能な応答を生成します。広範な評価によって、我々のアプローチが単一タスクのベースラインに比べて、回答の正確性と視覚的ローカリゼーションの両方で大幅に改善されることが示されています。