KNN算法的优点
理论成熟,思想简单,既可以用来做分类也可以用来做回归、可用于非线性分类、对数据没有假设,准确度高
KNN算法的缺点
计算量大、样本不平衡问题(即有些类别的样本数量很多,而其它样本的数量很少)、需要大量的内存;
决策树自身的优点
计算简单,易于理解,可解释性强、比较适合处理有缺失属性的样本、能够处理不相关的特征、在相对短的时间内能够对大型数据源做出可行且效果良好的结果。
决策树自身的缺点
容易发生过拟合(随机森林可以很大程度上减少过拟合)、忽略了数据之间的相关性、对于那些各类别样本数量不一致的数据,在决策树当中,信息增益的结果偏向于那些具有更多数值的特征(只要是使用了信息增益,都有这个缺点,如RF)。
K-Means聚类的优点
算法简单,容易实现 、对处理大数据集,该算法是相对可伸缩的和高效率的
K-Means聚类的缺点
对数据类型要求较高,适合数值型数据、可能收敛到局部最小值,在大规模数据上收敛较慢、K值比较难以选取、对初值的簇心值敏感,对于不同的初始值,可能会导致不同的聚类结果、不适合于发现非凸面形状的簇,或者大小差别很大的簇、对于”噪声”和孤立点数据敏感,少量的该类数据能够对平均值产生极大影响。