g-DPO: プロテイン言語モデルのためのスケーラブルな嗜好最適化

この記事では、プロテイン言語モデルの実験設計目標に対して効果的な調整方法である直接嗜好最適化（DPO）の課題を解決する新しいフレームワーク「g-DPO」を提案しています。DPOは、ラベル付けされた配列の数が増えることでトレーニングペアの可能性が二次関数的に増加し、訓練時間が膨大になるというスケーラビリティの課題に直面しています。g-DPOは、シーケンス空間のクラスタリングを利用して冗長なペアを削減しつつ、トレーニング信号を保持し、グループベースの近似で期待値計算を平準化します。三つのプロテインエンジニアリングタスクにおいて、g-DPOは従来のDPOと統計的に区別できない水準の性能を維持しながらも、1.8倍から3.7倍の速さで収束し、データセットのサイズが増加するにつれてさらなる効率の向上が期待されています。