统计学：Kmeans聚类的原理和步骤？

2020-07-05 阅读量: 1507

统计学

统计学：Kmeans聚类的原理和步骤？

扫码加入数据分析学习群

1. 基本思想

K-means 聚类是一种快速聚类法，适合应用于大样本量的数据。其方法可以总结为：首先随机选择 K 个点作为中心点，所有样本与这 K 个中心点计算距离，距离最近的样本被归为与中心点同类的点，然后重新计算每个类的中心，再次计算每个样本与类中心的距离，并按照最短距离原则重新划分类，如此迭代直至类不再变化为止。

2. 基本步骤：

（1）对数据进行标准化，消除数据差异和量纲的影响。

（2）确定分类数目K。

（3）确定K个类别的初始聚类中心。

（4）根据确定的K个初始聚类中心，依次计算每个样本到K个聚类中心的欧氏距离，并根据距离最近原则将样本分到事先确定的K个类别中。

（5）根据所分成的K个类别，计算出各类别中每个变量的均值，并以均值点作为新的K个类别中心。根据新的中心位置，重新计算每个样本到新中心的距离，并重新进行分类。

（6）重复第4步，直到满足终止聚类条件为止。终止聚类的条件主要包括两个：一是事先设定的最大迭代数；二是新确定的聚类中心点与上一次的聚类中心点最大偏差量小于指定量。