在计算(1-2)时假设出现某项是零了怎么办?
答:有两种方法:(1)拉普拉斯校准或拉普拉斯估计法。假定训练数据库D很大,使得需要的每个技术加1造成的估计概率的变化可以忽略不计,但可以方便的避免概率值为零的情况。(如果对q个计数都加上1,则我们必须在用于计算概率的对应分母上加上q)。(2)条件概率的m估计。P(Xi | Yi) = (nc + mp) / (n + m)其中,n是类yi中的实例总数,nc是类yi的训练样例中取值xi的样例数,m是称为等价样本大小的参数,而p是用户指定的参数。如果没有训练集(即n=0)则P(xi|yi)=p。因此p可以看作是在yi的记录中观察属性值xi的先验概率。等价样本大小决定先验概率p和观测概率nc/n之间的平衡。