arXiv cs.LG

潜在空間フローベースの拡散による表形式データの予測性能向上

Boosting Predictive Performance on Tabular Data through Data Augmentation with Latent-Space Flow-Based Diffusion

http://arxiv.org/abs/2511.16571v1


この記事では、表形式データにおけるクラス不均衡の問題に対処するために、潜在空間を利用した新しいデータ拡張手法を提案しています。特に重要な少数クラスのパフォーマンスを改善するため、条件付きフローマッチングと勾配ブーストツリーを用いた木構造の拡散方法を開発しました。この手法は、データの表現をコンパクトな潜在空間で行い、計算コストを低減します。具体的には、線形PCAを使用するPCAForest、非線形Embeddingを用いるEmbedForest、注意メカニズムを活用するAttentionForestの三つのバリエーションがあります。11のデータセットで実験した結果、AttentionForestは高い少数クラスの再現率を維持しつつ、精度も競争力のあるレベルを保ちました。また、生成速度が速く、プライバシーの観点でも優れた特性を示しました。全体として、この手法は重大なクラス不均衡において高忠実度のデータ拡張を提供する効率的でプライバシー意識の高いアプローチであることが示されています。