MedSapiens: 医用画像のランドマーク検出を再考するためのポーズ

本論文は新しいアーキテクチャを提案するのではなく、人体中心の基盤モデルを医用画像の解剖学的ランドマーク検出に適応させる重要な課題に再焦点を当てています。従来、ランドマーク検出はドメイン特有のモデルに依存していましたが、近年の大規模な事前学習視覚モデルの登場により新たな可能性が開かれました。著者たちは、ポーズ推定用に設計されたSapiensモデルを用いて、複数のデータセットでの事前学習を通じて医用画像処理に適応させたMedSapiensを提案。これにより、既存のモデルと比較して成功率を最大5.26%改善し、専門モデルよりも最大21.81%の性能向上を達成しました。また、限られたデータ環境においても優れた適応能力を示し、少数ショットの状態での検出率も改善されました。