この記事では、機械学習(ML)を用いて材料の特性を予測する際のデータセットの質と多様性がいかに重要かが強調されています。特に、低対称の原子配置から得られたデータが重要であり、これらのデータは実際の材料特性において不可欠な熱励起や構造欠陥を含んでいます。本研究では、ランダムに生成された原子配置と、格子振動に基づいて物理的にサンプリングされたデータセットの2種類にわかれたグラフニューラルネットワーク(GNN)モデルの性能を比較しました。その結果、フォノンに基づくモデルが、少ないデータポイントでもランダムな訓練モデルより優れた予測能力を示しました。さらに、物理的に指導されたデータ生成の重要性も示されており、質の高い訓練データを効率的に構築するための一般的な戦略が提示されています。