809669515

2018-10-31   阅读量: 920

数据分析师 机器学习 数据挖掘

聚类

扫码加入数据分析学习群

集群是类似的数据子集。聚类(也称为无监督学习)是将数据集划分为组的过程,使得每个组的成员尽可能彼此相似(接近),并且不同的组彼此尽可能不同(远)。群集可以发现数据集中以前未检测到的关系。群集分析有很多应用。例如,在商业中,聚类分析可用于发现和表征客户细分市场以用于营销目的,并且在生物学中,它可用于根据其特征对植物和动物进行分类。 两组主要的聚类算法是:

  1. 分级

  1. 表分词

一个好的聚类方法要求是:

  • 发现部分或全部隐藏集群的能力。
  • 群内相似性和群集间相异性。
  • 能够处理各种类型的属性。
  • 可以处理噪音和异常值。
  • 可以处理高维度。
  • 可扩展,可解释和可用。

聚类中的一个重要问题是如何确定两个对象之间的相似性,以便聚类可以由聚类内具有高相似性和聚类之间的低相似性的对象形成。通常,为了测量对象之间的相似性或不相似性,使用诸如欧几里得,曼哈顿和明科夫斯基的距离度量。距离函数为彼此更相似的对象对返回较低的值。

添加CDA认证专家【维克多阿涛】,微信号:【cdashijiazhuang】,提供数据分析指导及CDA考试秘籍。已助千人通过CDA数字化人才认证。欢迎交流,共同成长!
100.6402 2 4 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子