KnowMolは、分子アプリケーションにおける有望な可能性から注目される分子大規模言語モデルを進化させるために提案されました。現在のモデルは、分子のテキスト記述の不足や、事前学習中の分子表現戦略の最適化不足により、理解に制約があります。この問題に対処するために、100Kの詳細な分子注釈からなる大規模データセット「KnowMol-100K」を導入し、分子とテキスト記述のギャップを埋めました。また、化学的に情報豊富な分子表現を提案し、従来の表現戦略の限界を克服します。これらのイノベーションを基に、KnowMolを開発し、分子理解と生成タスクにおいて優れた性能を示しています。