f1-score 是精确率与召回率的调和平均值(1/p + 1/r = 2/f1 ,f1 = 2pr/(p+r))
support 有多少个样本
macro avg(宏平均)(求每个指标的简单平均)(常用)
weighted avg(加权平均)(常用)
微平均:用的比较少
聚类与分类的区别
分类:监督学习,有限类别中的某一类
聚类:无监督学习,同一组数据进行聚类分析,所得到的聚类未必一致.
聚类不太好评估(按照行业经验)
原始数据 --- 数据 --- 数据相似性计算---聚类---聚类评估
聚类方法的类别
K-Means
K-均值:将每一个样本分配给最近的中心
聚类k一般小于10
sklearn.cluster.KMeans()
参数
n_clusters -- 分几簇
init --- 初始化(k-means++,分散选点,减少迭代)
n_init ---来n次选最优初始点
max_iter ---最多迭代次数
tol --- 两次质心相差大小,小于它停止迭代
precompute_distance ---是否提取计算
verbose ---输出如何迭代信息
kmean 时候凸数据集,对异常点比较敏感
DBSCAN聚类