この記事では、乳がん検出における新たなアプローチとして、視覚と言語の融合モデル(VLM)の開発について述べています。乳がんは先進国で最も一般的に診断される悪性腫瘍であり、早期発見が重要です。既存のコンピュータ支援診断(CAD)システムは、放射線専門医を支援する可能性を持っていますが、臨床での実用化には課題があります。本研究では、2Dマンモグラムからの視覚的特徴と、臨床メタデータ及び合成された放射線レポートからの構造化テキスト記述子を組み合わせた新しいフレームワークを提案しています。この手法は、高解像度の画像を取り扱い、多様な集団における実用化を実現しつつ、コンボリューションニューラルネットワーク(ConvNets)とランゲージ表現の戦略的統合により、視覚トランスフォーマーモデルよりも優れた性能を発揮します。最終的に、このアプローチは臨床的に実行可能なVLMベースのCADシステムの新たな枠組みを定義します。