zengweiak47

2020-08-05   阅读量: 703

8月5日

扫码加入数据分析学习群

f1-score 是精确率与召回率的调和平均值(1/p + 1/r = 2/f1 ,f1 = 2pr/(p+r))
support 有多少个样本
macro avg(宏平均)(求每个指标的简单平均)(常用)
weighted avg(加权平均)(常用)
微平均:用的比较少

聚类与分类的区别
分类:监督学习,有限类别中的某一类
聚类:无监督学习,同一组数据进行聚类分析,所得到的聚类未必一致.
聚类不太好评估(按照行业经验)

原始数据 --- 数据 --- 数据相似性计算---聚类---聚类评估

聚类方法的类别

K-Means
K-均值:将每一个样本分配给最近的中心
聚类k一般小于10
sklearn.cluster.KMeans()
参数
n_clusters -- 分几簇
init --- 初始化(k-means++,分散选点,减少迭代)
n_init ---来n次选最优初始点
max_iter ---最多迭代次数
tol --- 两次质心相差大小,小于它停止迭代
precompute_distance ---是否提取计算
verbose ---输出如何迭代信息
kmean 时候凸数据集,对异常点比较敏感
DBSCAN聚类


添加CDA认证专家【维克多阿涛】,微信号:【cdashijiazhuang】,提供数据分析指导及CDA考试秘籍。已助千人通过CDA数字化人才认证。欢迎交流,共同成长!
29.0502 4 5 关注作者 收藏

评论(0)


暂无数据

推荐课程