この記事では、薬物発見における機械学習モデルの性能が、基盤となるトレーニングデータの質と一貫性に大きく依存することを説明しています。従来の手法では、多様なソースからのバイオアクティビティデータを集約してモデルを訓練しますが、実験プロトコルのばらつきによりノイズが多くなります。新しいフレームワーク「AssayMatch」を導入し、特定のテストセットに適したより均質なトレーニングセットを構築する手法を提案しています。AssayMatchは、データの寄与度を定量化することで、トレーニングデータの選択が可能であり、未知のラベルを持つテストセットに対しても対応できます。実験結果から、AssayMatchを用いて選択されたデータで訓練されたモデルは、全データセットを使用したモデルを上回る性能を示し、薬物発見のためのデータ効率と予測能力を向上させることが示されました。