读童话的狼

2020-06-28   阅读量: 1504

决策树为什么可以认为是条件概率模型?

扫码加入数据分析学习群

在李航老师的《统计学习方法》中写到

决策树是给定特征条件下类的条件概率分布,这一条件概率分布定义在特征区间的一个划分(partiton)上。将特征空间划分为互不相交的单元(cell)或区域(region),并在每个单元定义一个类的概率分布就构成了一个条件概率分布。决策树的一条路径对应划分中的一个单元,决策树所表示的条件概率分布由各个单元给定条件下类的条件概率分布组成。假设X为表示特征的随机变量,Y为表示类的随机变量,那么这个条件概率分布可以表示成P(Y|X)。X取值于给定划分下单元的集合,Y取值于类的集合,各叶节点(单元)上的条件概率往往偏向于某一个类,即属于某一类的概率较大,决策树分类时将该节点的实例分到条件概率大的那一类去。

决策树学习的过程是由训练集估计条件概率模型,基于特征区间划分的类的条件概率模型由无穷多个,我们选择的条件概率模型应该不仅对训练数据有很好的拟合,而且对未知数据有很好的预测。

19.3898 5 3 关注作者 收藏

评论(0)


暂无数据

推荐课程