信息增益_CDA答疑社区

2020-08-07 阅读量: 580

信息增益

扫码加入数据分析学习群

信息增益决定特征是否有分类能力

在划分数据集之后信息发生的变化称为信息增益

通过计算每个特征值划分数据集获得的信息增益，获得信息增益最高的特征就是最好的选择

如何计算信息增益:香农熵

熵:(随机变量不确定性的度量)概率越小,信息量越多

香农熵:

当熵中的概率由数据估计(特别是最大似然估计)得到时，

所对应的熵称为经验熵(empirical entropy)

经验熵

经验条件熵

信息增益=经验熵-经验条件熵

为什么要选信息增益最大的??

我们希望可以进行彻底地分类,分的越彻底,不确定性越小,经验条件熵越小,信息增益越大

添加CDA认证专家【维克多阿涛】，微信号：【cdashijiazhuang】，提供数据分析指导及CDA考试秘籍。已助千人通过CDA数字化人才认证。欢迎交流，共同成长！

37.8020 5 5 踩关注作者收藏

暂无数据