この記事では、医療分野における多モーダル言語モデルの構成的一般化を評価するためのベンチマーク「CrossMed」が紹介されています。近年の大規模マルチモーダルモデルの進展により、視覚とテキストの統合処理が可能になりましたが、さまざまな画像モダリティや解剖学、タスクタイプの未見の組み合わせにおける一般化能力は十分に探求されていません。CrossMedでは、既存の4つのデータセットを統一された視覚質問応答形式に再構成し、合計20,200の選択肢付きQAインスタンスを生成しました。2つのオープンソースの多モーダルモデルを関連性のある設定と無関係な設定で評価した結果、トレーニングデータとのモダリティやタスクにおける共有がない条件ではパフォーマンスが大幅に低下することが示され、ベンチマークの難易度が証明されました。また、モデルはクロスタスク転送能力を示し、分類データのみで訓練してもセグメンテーション性能が向上することが確認されました。CrossMedは、医療ビジョンと言語モデルのゼロショット、クロスタスク、およびモダリティに依存しない一般化を評価するための厳密な試験環境を提供します。