arXiv cs.AI

未知への洞察:分子データにおけるフェデレーテッドデータ多様性分析

Insights into the Unknown: Federated Data Diversity Analysis on Molecular Data

http://arxiv.org/abs/2510.19535v1


本記事では、医薬品の発見におけるAI手法が重要な役割を果たす一方で、公開データセットに依存しているため、産業応用への移行が限られている現状を述べています。フェデレーテッドラーニング(FL)は、プライベートデータをプライバシーを保護しながら統合し、データの異なるサイロ間で共同でモデルを訓練する有望なアプローチを提供します。しかし、フェデレーテッドデータへのアクセスは、データセットの多様性の推定や情報に基づくデータの分割、化学空間の構造の理解といった重要なデータ中心のタスクを複雑にします。この研究では、フェデレーテッドクラスタリング手法が分散した分子データをどの程度うまく解きほぐし、表現できるかを調査し、Fed-kMeans、Fed-PCA+Fed-kMeans、Fed-LSHの3つのアプローチを中央集権型手法と比較しています。結果は、化学に基づく評価指標を用いることの重要性を示し、フェデレーテッドデータの多様性分析における説明可能性の分析が必要であることを明らかにしています。