朴素贝叶斯中的三种常用模型
多项式模型(MultinomialNB)
特征是离散的时候, 使用多项式模型。 多项式模型在计算先验概率P(yk)和条件概率P(xi|yk)时, 会做一些平滑处理.
多项式模型常用于文本分类, 特征是单词, 值是单词的出现次数.
伯努利模型(BernoulliNB)
伯努利模型适用于离散特征的情况, 所不同的是, 伯努利模型中每个特征的取值只能是1和0(多了二值化处理。 以文本分类为例, 某个单词在文档中出现过, 则其特征值为1, 否则为0)
高斯模型(GaussianNB)
当特征是连续变量的时候, 运用多项式模型就会导致很多P(xi|yk)=0(不做平滑的情况下) , 此时即使做平滑, 所得到的条件概率也难以描述真实情况。 所以处理连续的特征变量, 应该采用高斯模型
高斯模型假设每一维特征都服从高斯分布(正态分布)