トレーニングセットの不均一性誘発能力のパラメータ化とその教師あり学習への影響

Parametrising the Inhomogeneity Inducing Capacity of a Training Set, and its Impact on Supervised Learning

この記事では、トレーニングデータセットの不均一性を評価する新たなパラメータ「不均一性パラメータ」の導入について説明しています。このパラメータは、小規模から大規模なデータセットに対して容易に計算可能であり、複数の公開データセットを用いてその計算方法を示しています。従来の「非定常性」というデータの特性は、データセットの不均一性パラメータがゼロではないことを示唆するものではないとされ、確率的ガウス過程に基づく学習アプローチにおいて、このパラメータを有するトレーニングセットでは、求められる関数をモデル化するプロセスが非定常である必要があることを証明しています。また、実世界の多変量関数の学習結果として、トレーニングデータの不均一性パラメータが予測の品質や信頼性に与える影響についても言及しています。