高斯混合体聚类_CDA答疑社区

CDA数据科学研究院 CDA考试中心 CDA网校企业服务

CDA社区

CDA竞赛 CDA技术答疑 CDA俱乐部

关于CDA APP下载

免密码登录

提交首次登录验证后自动注册

2018-11-01 阅读量: 850

数据分析师数据挖掘机器学习

高斯混合体聚类

扫码加入数据分析学习群

基于模型的聚类简介
还有另一种处理聚类问题的方法：基于模型的方法，包括使用某些模型进行聚类并尝试优化数据和模型之间的拟合。
在实践中，每个聚类可以通过参数分布在数学上表示，如高斯（连续）或泊松（离散）。因此，整个数据集由这些分布的混合物建模。用于对特定集群建模的单个分布通常称为组件分布。

具有高可能性的混合模型倾向于具有以下特征：

组件分布具有高“峰值”（一个簇中的数据很紧）;
混合模型很好地“覆盖”数据（数据中的主导模式由组件分布捕获）。

基于模型的聚类的主要优点：

经过充分研究的统计推断技术;
选择组件分布的灵活性;
获得每个聚类的密度估计;
可以使用“软”分类。

高斯混合物
这种最广泛使用的聚类方法是基于学习高斯混合的方法：我们实际上可以将聚类视为以其重心为中心的高斯分布，正如我们在这张图中所见，灰色圆圈表示分布的第一个方差：

该算法以这种方式工作：

它以概率随机选择分量（高斯分布）

;

它取样一点

。

我们假设有：

x ₁，x ₂，...，x _N.

我们可以获得样本的可能性：

。
我们真正想要最大化的是

（给出高斯中心的数据的概率）。

是写似然函数的基础：

现在我们应该通过计算来最大化似然函数

，但这太难了。这就是我们使用称为EM（期望最大化）的简化算法的原因。

EM算法
在实践中用于找到可以对数据集建模的高斯混合的算法称为EM（期望最大化）（Dempster，Laird和Rubin，1977）。让我们看看它如何与一个例子一起工作。

假设x _k是一个班级学生得到的标记，具有以下概率：

x ₁ = 30

x ₂ = 18

x ₃ = 0

x ₄ = 23

第一种情况：我们观察到学生之间的分布如此分布：

x ₁：学生
x ₂：b学生
x ₃：c学生
x ₄：d学生

我们应该通过计算最大化这个功能

。让我们改为计算函数的对数并最大化它：

假设a = 14，b = 6，c = 9和d = 10，我们可以计算出来

。

第二种情况：我们观察到学生之间的分布如此分散：

x ₁ + x ₂：h学生
x ₃：c学生
x ₄：d学生

我们已经获得了一个循环，分为两个步骤：

期望：

最大化：

该循环可以以迭代的方式求解。

现在让我们看看EM算法如何适用于高斯混合（在第p次迭代中估计的参数用上标（p）标记：

初始化参数：

E-步：

M步：

其中R是记录数。

添加CDA认证专家【维克多阿涛】，微信号：【cdashijiazhuang】，提供数据分析指导及CDA考试秘籍。已助千人通过CDA数字化人才认证。欢迎交流，共同成长！

0.0000 0 3 踩关注作者收藏

评论(0)

暂无数据

快速发帖我要提问

数据分析师求职、备考、笔试
刷题神器！

社区福利马上领

推荐课程

推荐帖子