この記事では、マルチモーダルタンパク質表現学習のための「Diffused and Aligned Multi-modal Protein Embedding(DAMPE)」という新しいフレームワークを提案しています。タンパク質の機能予測には、シーケンスや構造といった異種の内部信号と、タンパク質間相互作用やGO用語注釈などの外部情報を統合することが重要ですが、内部エンコーダーから生成される埋め込みの分布の不一致や、外部データのノイズによる関係グラフが融合を妨げる二つの課題が存在します。DAMPEは、最適輸送に基づく表現の整合性確保と条件付きグラフ生成に基づく情報融合メカニズムを用い、これらの課題を解決します。実験的な結果から、DAMPEは従来の最先端手法と比較して、タンパク質機能予測の精度を大幅に向上させることが示されています。