PETAR：PET自動報告のためのマスク認識視覚言語モデルによる局所的発見生成

PETAR: Localized Findings Generation with Mask-Aware Vision-Language Modeling for PET Automated Reporting

最近の視覚と言語モデル（VLM）の進展は、多様なモーダル推論を実現しているが、医療分野では主に2D画像に限られている。本研究では、3D陽電子放出断層撮影（PET）およびコンピュータ断層撮影（CT）にVLMを拡張する。大規模なデータセットを構築し、11,000を超える病変レベルの記述と5,000を超えるPET/CT検査からの3Dセグメンテーションをペアにしている。PETAR-4Bという3Dマスク認識視覚言語モデルを提案し、PET、CT、および病変の輪郭を統合して報告書を生成する。このモデルは、グローバルな文脈推論と細かな病変の認識を橋渡しし、臨床的に一貫性のある局所的な発見を生み出す。PETARは、PET/CTの報告生成の質を大幅に向上させ、3D医療視覚と言語理解を進展させることが示されている。