arXiv cs.AI

RadDiagSeg-M: 放射線科における共同診断と多対象セグメンテーションのためのビジョン言語モデル

RadDiagSeg-M: A Vision Language Model for Joint Diagnosis and Multi-Target Segmentation in Radiology

http://arxiv.org/abs/2510.18188v1


この記事では、放射線科における診断テキストの生成とピクセルレベルのセグメンテーションマスクを同時に行う困難を解決する新しいビジョン言語モデル「RadDiagSeg-M」を提案しています。従来の医療用ビジョン言語モデルは複雑な視覚質問に対して両方の出力を提供できず、臨床アプリケーションにおいて制限されていました。この問題を軽減するために、異常検出、診断、および多対象セグメンテーションを統合したデータセット「RadDiagSeg-D」を導入しています。このデータセットは、複数の画像モダリティをカバーし、診断に有用な文脈情報を強化する出力を生成できるモデルの開発を支援します。最後に、RadDiagSeg-Mの性能を評価し、多対象のテキストとマスク生成のタスクにおける強力で競争力のある基準を確立しました。