KNN,聚类，决策树三者的比较

2020-09-18 阅读量: 1822

Scikit-learn Python

扫码加入数据分析学习群

KNN算法的优点

理论成熟，思想简单，既可以用来做分类也可以用来做回归、可用于非线性分类、对数据没有假设，准确度高

KNN算法的缺点

计算量大、样本不平衡问题（即有些类别的样本数量很多，而其它样本的数量很少）、需要大量的内存；

决策树自身的优点

计算简单，易于理解，可解释性强、比较适合处理有缺失属性的样本、能够处理不相关的特征、在相对短的时间内能够对大型数据源做出可行且效果良好的结果。

决策树自身的缺点

容易发生过拟合（随机森林可以很大程度上减少过拟合）、忽略了数据之间的相关性、对于那些各类别样本数量不一致的数据，在决策树当中,信息增益的结果偏向于那些具有更多数值的特征（只要是使用了信息增益，都有这个缺点，如RF）。

K-Means聚类的优点

算法简单，容易实现、对处理大数据集，该算法是相对可伸缩的和高效率的

K-Means聚类的缺点

对数据类型要求较高，适合数值型数据、可能收敛到局部最小值，在大规模数据上收敛较慢、K值比较难以选取、对初值的簇心值敏感，对于不同的初始值，可能会导致不同的聚类结果、不适合于发现非凸面形状的簇，或者大小差别很大的簇、对于”噪声”和孤立点数据敏感，少量的该类数据能够对平均值产生极大影响。

添加CDA认证专家【维克多阿涛】，微信号：【cdashijiazhuang】，提供数据分析指导及CDA考试秘籍。已助千人通过CDA数字化人才认证。欢迎交流，共同成长！

68.6401 2 0 踩关注作者收藏

暂无数据

评论(0)