Med-VRAgent: 医療視覚推論強化エージェントのためのフレームワーク

Visual Language Models (VLMs)は医療推論において良好な成果を上げていますが、幻覚や不明瞭な記述、一貫性のない論理、そして不十分な局所化に苦しんでいます。これらの問題に対処するため、医療視覚推論エージェント（Med-VRAgent）というエージェントフレームワークを提案します。このアプローチは、視覚的指導と自己報酬のパラダイム、およびモンテカルロ木探索（MCTS）に基づいています。視覚的指導と木探索を組み合わせることで、Med-VRAgentはVLMsの医療視覚推論能力を向上させます。Med-VRAgentによって収集された軌跡をフィードバックとして使用し、近接方策最適化（PPO）手法でVLMsをファインチューニングすることで、性能をさらに向上させます。複数の医療VQAベンチマークでの実験により、提案手法が既存の手法よりも優れていることが示されています。