本研究では、胸部X線における視覚と言語の解釈可能性を評価するための初の体系的ベンチマーク「XBench」を提案します。視覚言語モデル(VLM)のゼロショット性能を活かし、さまざまなCLIPスタイルのVLMバリアントで定量的な評価を行います。視覚的説明はクロスアテンションと類似性に基づく局所化マップを用いて生成され、放射線科医の注釈と整合性が評価されます。分析の結果、大きな病変に対するローカリゼーションは一定の成功を収める一方、小さな病変や拡散性病変に対する性能は顕著に低下することが明らかになりました。また、胸部X線特化のデータセットで事前学習されたモデルは、一般的なデータで訓練されたものに比べて整合性が向上しています。この研究は、臨床での信頼性のある解釈が必要であることを強調し、医療実践への導入の前に特定の解釈可能性のベンチマークが必要であることを示しています。