809669515

2018-11-01   阅读量: 850

数据分析师 数据挖掘 机器学习

高斯混合体聚类

扫码加入数据分析学习群

基于模型的聚类简介
还有另一种处理聚类问题的方法:基于模型的方法,包括使用某些模型进行聚类并尝试优化数据和模型之间的拟合。
在实践中,每个聚类可以通过参数分布在数学上表示,如高斯(连续)或泊松(离散)。因此,整个数据集由这些分布的混合物建模。用于对特定集群建模的单个分布通常称为组件分布。

具有高可能性的混合模型倾向于具有以下特征:

  • 组件分布具有高“峰值”(一个簇中的数据很紧);
  • 混合模型很好地“覆盖”数据(数据中的主导模式由组件分布捕获)。

基于模型的聚类的主要优点:

  • 经过充分研究的统计推断技术;
  • 选择组件分布的灵活性;
  • 获得每个聚类的密度估计;
  • 可以使用“软”分类。

高斯混合物
这种最广泛使用的聚类方法是基于学习高斯混合的方法:我们实际上可以将聚类视为以其重心为中心的高斯分布,正如我们在这张图中所见,灰色圆圈表示分布的第一个方差:

该算法以这种方式工作:

  • 它以概率随机选择分量(高斯分布)

;

  • 它取样一点

我们假设有:

  • x 1,x 2,...,x N.

我们可以获得样本的可能性:


我们真正想要最大化的是

(给出高斯中心的数据的概率)。

是写似然函数的基础:

现在我们应该通过计算来最大化似然函数

,但这太难了。这就是我们使用称为EM(期望最大化)的简化算法的原因。

EM算法
在实践中用于找到可以对数据集建模的高斯混合的算法称为EM(期望最大化)(Dempster,Laird和Rubin,1977)。让我们看看它如何与一个例子一起工作。

假设x k是一个班级学生得到的标记,具有以下概率:

x 1 = 30            

x 2 = 18            

x 3 = 0              

x 4 = 23            

第一种情况:我们观察到学生之间的分布如此分布:

x 1:学生
x 2:b学生
x 3:c学生
x 4:d学生

我们应该通过计算最大化这个功能

。让我们改为计算函数的对数并最大化它:

假设a = 14,b = 6,c = 9和d = 10,我们可以计算出来

第二种情况:我们观察到学生之间的分布如此分散:

x 1 + x 2:h学生
x 3:c学生
x 4:d学生

我们已经获得了一个循环,分为两个步骤:

  • 期望:

  • 最大化:

该循环可以以迭代的方式求解。

现在让我们看看EM算法如何适用于高斯混合(在第p次迭代中估计的参数用上标(p)标记:

  1. 初始化参数:


  1. E-步:


  1. M步:



其中R是记录数。

添加CDA认证专家【维克多阿涛】,微信号:【cdashijiazhuang】,提供数据分析指导及CDA考试秘籍。已助千人通过CDA数字化人才认证。欢迎交流,共同成长!
0.0000 0 3 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子