马锦涛

2020-09-18   阅读量: 1822

Scikit-learn Python

KNN,聚类,决策树三者的比较

扫码加入数据分析学习群

KNN算法的优点

理论成熟,思想简单,既可以用来做分类也可以用来做回归、可用于非线性分类、对数据没有假设,准确度高

KNN算法的缺点

计算量大、样本不平衡问题(即有些类别的样本数量很多,而其它样本的数量很少)、需要大量的内存;

决策树自身的优点

计算简单,易于理解,可解释性强、比较适合处理有缺失属性的样本、能够处理不相关的特征、在相对短的时间内能够对大型数据源做出可行且效果良好的结果。

决策树自身的缺点

容易发生过拟合(随机森林可以很大程度上减少过拟合)、忽略了数据之间的相关性、对于那些各类别样本数量不一致的数据,在决策树当中,信息增益的结果偏向于那些具有更多数值的特征(只要是使用了信息增益,都有这个缺点,如RF)。

K-Means聚类的优点

算法简单,容易实现 、对处理大数据集,该算法是相对可伸缩的和高效率的

K-Means聚类的缺点

对数据类型要求较高,适合数值型数据、可能收敛到局部最小值,在大规模数据上收敛较慢、K值比较难以选取、对初值的簇心值敏感,对于不同的初始值,可能会导致不同的聚类结果、不适合于发现非凸面形状的簇,或者大小差别很大的簇、对于”噪声”和孤立点数据敏感,少量的该类数据能够对平均值产生极大影响。




添加CDA认证专家【维克多阿涛】,微信号:【cdashijiazhuang】,提供数据分析指导及CDA考试秘籍。已助千人通过CDA数字化人才认证。欢迎交流,共同成长!
68.6401 2 0 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子