arXiv cs.LG

情報理論による機械学習ポテンシャルのデータセット圧縮効率の最大化

Maximizing Efficiency of Dataset Compression for Machine Learning Potentials With Information Theory

http://arxiv.org/abs/2511.10561v1


機械学習における原子間ポテンシャルは、密度汎関数理論に比べて高い精度と低コストを両立していますが、その性能は訓練データセットのサイズと多様性に依存します。大規模なデータセットはモデルの精度と一般化能力を向上させますが、生成と訓練には計算コストがかかります。一方、小規模なデータセットは、重要な原子環境を捨てるリスクがあります。この記事では、データセット圧縮手法の効率を定量化する情報理論的フレームワークを提案し、最適化アルゴリズムを開発しました。本手法は、元のデータセットから情報を最大限に保持しつつ冗長な情報を削減する最小集合カバー問題として圧縮を扱います。また、GAP-20およびTM23データセットでの成功例を示し、様々なデータセットでの検証結果も提供しています。この手法は、データサンプリングや異常値検出、コストを抑えたMLIPの訓練など、原子モデリングの多くのタスクに応用可能です。