本論文では、乳がんの診断とリスク予測のために、多視点マンモグラフィと自然言語処理を融合させた新たなアプローチであるMV-MLMを提案しています。大規模な注釈付きデータセットは、コンピュータ支援診断(CAD)モデルの訓練に不可欠ですが、詳細な注釈を持つデータを取得するのは高コストで時間がかかります。そこで、本研究は多視点のマンモグラム画像と合成放射線レポートを用いたデータセットを基に、クロスモーダル自己教師あり学習を採用して、豊富な特徴表現を学びます。提案手法は、悪性腫瘍分類、サブタイプ分類、画像に基づくがんリスク予測の3つの分類タスクで最先端の性能を達成し、データ効率の向上も見込まれます。また、実際の放射線レポートではなく合成テキストレポートだけで訓練しても優れたパフォーマンスを示しました。