基于模型的聚类简介
还有另一种处理聚类问题的方法:基于模型的方法,包括使用某些模型进行聚类并尝试优化数据和模型之间的拟合。
在实践中,每个聚类可以通过参数分布在数学上表示,如高斯(连续)或泊松(离散)。因此,整个数据集由这些分布的混合物建模。用于对特定集群建模的单个分布通常称为组件分布。
具有高可能性的混合模型倾向于具有以下特征:
基于模型的聚类的主要优点:
高斯混合物
这种最广泛使用的聚类方法是基于学习高斯混合的方法:我们实际上可以将聚类视为以其重心为中心的高斯分布,正如我们在这张图中所见,灰色圆圈表示分布的第一个方差:
该算法以这种方式工作:
;
。
我们假设有:
我们可以获得样本的可能性:
。
我们真正想要最大化的是
(给出高斯中心的数据的概率)。
是写似然函数的基础:
现在我们应该通过计算来最大化似然函数
,但这太难了。这就是我们使用称为EM(期望最大化)的简化算法的原因。
EM算法
在实践中用于找到可以对数据集建模的高斯混合的算法称为EM(期望最大化)(Dempster,Laird和Rubin,1977)。让我们看看它如何与一个例子一起工作。
假设x k是一个班级学生得到的标记,具有以下概率:
x 1 = 30
x 2 = 18
x 3 = 0
x 4 = 23
第一种情况:我们观察到学生之间的分布如此分布:
x 1:学生
x 2:b学生
x 3:c学生
x 4:d学生
我们应该通过计算最大化这个功能
。让我们改为计算函数的对数并最大化它:
假设a = 14,b = 6,c = 9和d = 10,我们可以计算出来
。
第二种情况:我们观察到学生之间的分布如此分散:
x 1 + x 2:h学生
x 3:c学生
x 4:d学生
我们已经获得了一个循环,分为两个步骤:
该循环可以以迭代的方式求解。
现在让我们看看EM算法如何适用于高斯混合(在第p次迭代中估计的参数用上标(p)标记:
其中R是记录数。
三个资料Q群下载不了也转发不了,先放这里Fine_tuning.zipLangChain.zipdata_clear.rar