医療におけるトランスフォーマー：医学画像キャプショニングのための視覚と言語の整合性の向上

Transformers in Medicine: Improving Vision-Language Alignment for Medical Image Captioning

本研究では、MRIスキャンに対して臨床的に関連性のあるキャプションを生成するためのトランスフォーマーに基づくマルチモーダルフレームワークを提案します。システムは、画像エンコーダーとしてのDEiT-Smallビジョントランスフォーマー、キャプション埋め込み用のMediCareBERT、カスタムLSTMデコーダーを組み合わせています。このアーキテクチャは、画像とテキストの埋め込みを意味的に整合させることを目指し、ハイブリッドコサイン-MSE損失とベクトル類似性に基づくコントラスト推論を適用しています。MultiCaReデータセットで当手法を評価し、特定領域のデータに焦点を当てることでキャプションの精度と意味的整合性が向上することを示しました。本研究は自動医療画像報告のためのスケーラブルで解釈可能な解決策を提案しています。