arXiv cs.LG

T3: ゼロショット医療画像分析のためのVLMにおけるテスト時モデルマージ

T3: Test-Time Model Merging in VLMs for Zero-Shot Medical Imaging Analysis

http://arxiv.org/abs/2510.27265v1


本論文では、医療画像処理における視覚と言語のモデル(VLM)が直面する重要な問題に対処するための新しい手法「Test-Time Task adaptive merging (T^3)」を提案しています。既存のモデルマージ技術は、自然画像ベンチマーク用に設計されており、医療の多様なモダリティにおいて一貫した改善を提供できないため、T^3は各サンプルの出力分布間のJensen-Shannon距離を用いて動的に補間係数を計算します。これにより、モデルが合意する際には局所的な精度を保ち、シフトが発生した場合には一般的な堅牢性に依存します。また、サンプルごとのマージによる推論コストを削減するため、バッチ単位でのマージを行う拡張版T^3_Bも提案しています。実験の結果、T^3はトップ1精度と誤差削減の新しい最先端を達成し、医療関連のタスクでの適応型MVLMの展開に道を開くことが期待されています。