arXiv cs.LG

条件付き生物学的シーケンスモデルのカーネルベースの評価

Kernel-Based Evaluation of Conditional Biological Sequence Models

http://arxiv.org/abs/2510.15601v1


本論文では、条件付きシーケンスモデルの設計を評価し、ハイパーパラメータを調整するためのカーネルベースのツールを提案しています。特に、計算生物学の問題に焦点を当てています。提案されたツールの中心となる新しい指標は、真の条件付き分布とモデルの推定との間の不一致を測る「拡張条件付き最大平均不一致(ACMMD)」です。この指標は、モデルからサンプリングできる場合にデータからバイアスなく推定でき、絶対的なモデルフィットを定量化するのに役立ちます。具体的には、人気のあるタンパク質設計モデルであるProteinMPNNを分析し、異なるタンパク質ファミリーに対してProteinMPNNがデータにフィットするという仮説を棄却できることを示しました。その結果、モデルの温度ハイパーパラメータを調整してより良いフィットを実現しています。