信息增益决定特征是否有分类能力
在划分数据集之后信息发生的变化称为信息增益
通过计算每个特征值划分数据集获得的信息增益, 获得信息增益最高的特征就是最好的选择
如何计算信息增益:香农熵
熵:(随机变量不确定性的度量)概率越小,信息量越多
香农熵:
当熵中的概率由数据估计(特别是最大似然估计)得到时,
所对应的熵称为经验熵(empirical entropy)
经验熵
经验条件熵
信息增益=经验熵-经验条件熵
为什么要选信息增益最大的??
我们希望可以进行彻底地分类,分的越彻底,不确定性越小,经验条件熵越小,信息增益越大