arXiv cs.AI

分子と文本記述のギャップを部分構造を考慮した整合性で埋める

Bridging the Gap Between Molecule and Textual Descriptions via Substructure-aware Alignment

http://arxiv.org/abs/2510.26157v1


本研究は、分子とテキストの表現学習における新たな枠組み「MolBridge」を提案しています。従来のモデルは、分子の部分構造と化学フレーズ間の微細な整合性を学習する能力が不足しているため、分子とその記述の微妙な違いを捉えるのが困難でした。MolBridgeでは、分子と記述のペアに部分構造に基づく追加的な整合性信号を加えることで、精密な整合性を学習します。具体的には、部分構造を考慮した対照的学習とノイズの多い整合性信号をフィルタリングする自己洗練メカニズムを併用しています。実験結果から、MolBridgeは細かな対応を捉えるのに成功し、多くの分子ベンチマークで最先端のベースラインを上回る性能を示しました。この成果は、分子とテキストの学習における部分構造を考慮した整合性の重要性を強調しています。