arXiv cs.LG

合成オーバーサンプリングによる不均衡分類の集中および過剰リスクの境界

Concentration and excess risk bounds for imbalanced classification with synthetic oversampling

http://arxiv.org/abs/2510.20472v1


この研究では、SMOTE(Synthetic Minority Over-sampling Technique)とその変種を使用した少数派サンプルの合成オーバーサンプリングが、不均衡な分類問題においてどのように機能するかを理論的に分析しています。具体的には、合成データ上で訓練された分類器に関する集中境界と過剰リスクの理論的基盤を確立しました。まず、合成少数派サンプルに対する経験リスクと実際の少数派分布の母集団リスクとの間の偏差に対する一様集中境界を導出します。その後、こうした合成データを用いて訓練されたカーネルベースの分類器に対する非パラメトリックな過剰リスクの保証を提供します。これにより、SMOTEおよび学習アルゴリズムのパラメータ調整に関する実用的なガイドラインが得られ、理論的な発見を支持する数値実験も行われました。