VoxTell: 自由テキストによるユニバーサルな3D医療画像セグメンテーション

VoxTellは、自由形式のテキストから3Dマスクを生成する視覚-言語モデルとして設計されています。このモデルは、CT、MRI、PETなどの62,000以上のボリュームデータを用いて訓練され、1,000以上の解剖学的および病理学的クラスにわたるセグメンテーションを行います。VoxTellは、デコーダーレイヤー全体で段階的に視覚と言語の特徴を融合し、異なるスケールでテキストと視覚的特徴を整合させます。また、未見のデータセットに対しても比較的高い性能を発揮し、特に馴染みのある概念への適応が優れています。さらに、実際のテキストに基づく精密なセグメンテーションも可能であり、言語の変化や臨床用語に対する強いロバスト性が確認されています。