arXiv cs.AI

S2D-ALIGN: 解剖に基づく放射線レポート生成のための浅から深への補助学習

S2D-ALIGN: Shallow-to-Deep Auxiliary Learning for Anatomically-Grounded Radiology Report Generation

http://arxiv.org/abs/2511.11066v1


本記事では、放射線画像から診断レポートを自動生成する「放射線レポート生成(RRG)」の手法について論じています。従来の手法はマルチモーダル大規模言語モデル(MLLM)の交差モーダル生成能力を利用し、放射線写真とレポート間の整合性を最適化することに重点を置いていますが、画像とテキストのペアでのインスタンスレベル整合性にとどまり、解剖学に基づく整合性が不足していました。これに対処するために提案された「S2D-Align」は、粗い整合性から始め、リファレンスレポートや重要なフレーズを導入することで、段階的に整合性を増強する新しい手法です。評価実験では、MIMIC-CXRおよびIU X-Rayの公共ベンチマークにおいて、最先端の性能を達成したことが示され、複雑なマルチモーダル生成タスクにおける基盤強化の可能性を示唆しています。