この記事では、SIGMMAという新しいフレームワークを提案しています。これは、HE(ヘマトキシリン・エオシン)画像と空間トランスクリプトーム(ST)プロファイルとの間で、複数のスケールを通じて階層的な表現を学習するマルチモーダルコントラストアライメントの手法です。従来のアプローチは、単一のスケールでHEタイルとSTプロファイルを整合させるだけで、細胞の構造やその空間的な配置を見落としていました。SIGMMAは、異なるスケールで学習された表現が整合するように工夫しており、細胞相互作用をグラフとして表現し、組織内の細胞同士の関係を効果的に捉えます。また、この方法により、遺伝子発現予測タスクで平均9.78%の精度向上を実現し、クロスモーダルリトリーバルタスクでは平均26.93%の改善が確認されました。SIGMMAは、異なる組織の意味的な構造を学習することにも成功しています。