HackerNews

一般化K-平均クラスタリング

Generalized K-Means Clustering

https://github.com/derrickburns/generalized-kmeans-clustering


一般化K-平均クラスタリングは、Apache Spark向けの生産レベルのK-平均クラスタリングを提供するプロジェクトで、プラグ可能なブレグマン発散(KL、イタクラ-サイト、L1など)に対応しています。6つのアルゴリズムと740のテストが用意されており、MLlibの直接的な置き換えとして利用できます。このプロジェクトは確率分布、スペクトラルデータ、および数値データのための数学的に正しい距離関数を使用します。また、DataFrame API(Spark MLとの統合)を推奨しており、データのサイズや次元が巨大な場合にもスケーラブルです。一般化K-平均クラスタリングは、Bregman発散を用いることで、より高度な変種(バイセクティング、X-平均、ソフト/ファジー、ストリーミングK-メディアン、K-メドイ)を処理できます。