arXiv cs.AI

生成相関多様体:高次相関を保持した合成データの生成

Generative Correlation Manifolds: Generating Synthetic Data with Preserved Higher-Order Correlations

http://arxiv.org/abs/2510.21610v1


データプライバシーの必要性と堅牢な機械学習モデルへの需要が高まる中、合成データ生成技術が注目されています。しかし、従来の手法は単純な要約統計を再現することには成功しても、データ間の複雑な多変量相互作用を定義する対相関や高次相関構造を保持することには失敗しています。この制限により、外見上は現実的な合成データが得られるものの、高度なモデリングタスクには適していないことが多いです。本論文では、生成相関多様体(GCM)という方法を提案します。この手法は、ターゲット相関行列のコレスキー分解を利用して、元のデータセットの相関構造を保持する合成データを生成するもので、プライバシーを考慮したデータ共有や堅牢なモデル訓練、シミュレーションに利用可能な新たなアプローチを提供します。