arXiv cs.LG

静的構造からアンサンブルへ:タンパク質構造トークン化の研究と活用

From Static Structures to Ensembles: Studying and Harnessing Protein Structure Tokenization

http://arxiv.org/abs/2511.10056v1


この研究は、タンパク質構造のトークン化手法を探求し、3D構造を離散的またはベクトル化された表現に変換することで、構造データと配列データの統合を可能にすることを紹介しています。これまでの多くの研究において、トークン化された構造の特性は十分に理解されていませんでした。本研究では、言語モデルにおける構造トークンの効果的な活用が、十分に豊かな事前学習された配列埋め込みを使用して、配列と言語的な「構造」の間の意味のギャップを埋めることに依存していることを示しています。また、構造ボキャブラリーの分析により、異なるトークンがほぼ同一の局所ジオメトリに対応する「構造の同義語」の存在が明らかになり、この冗長性を「同義語置換」戦略を利用して多様なコンフォメーションアンサンブルを生成することができる方法を提案しています。この手法は、計算コストが軽く、タンパク質の柔軟性を効果的に再現し、最先端モデルと競争力のある成績を収めています。