Zzyh12

2020-08-06   阅读量: 803

数据分析师

机器学习之决策树

扫码加入数据分析学习群

决策树是一种基本的分类与回归方法,由结点和有向边组成,路径上内部结点的特征对应着规则条件,而叶节点的类对应规则的结论(互斥并完备)

决策树预测过程:收集数据--准备数据--分析数据--训练算法--测试算法--使用算法

决策树的构建:特征选择,决策树的生成,决策树的修剪

特征选择的标准:信息增益(在划分数据集之后信息发生的变化,信息增益越高越好)

构建决策树的方法:ID3,C4.5,CART

ID3具体流程:从根结点开始,对结点计算所有可能的特征的信息增益,选择信息增益最大的特征作为结点的特征,由该特征的不同取值建立子节点;再对子结点递归地调用以上方法,构建决策树。ID3相当于用最大似然法进行概率模型的选择.

C4.5具体流程;当属性类型为连续型,需要对数据进行离散化处理。C4.5算法针对连续属性的离散化处理的核心思想:将属性A的N个属性值按照升序排列;通过二分法将属性A的所有属性值分成两部分(共有N-1种划分方法,二分的阈值为相邻两个属性值的中间值);计算每种划分方法对应的信息增益,选取信息增益最大的划分方法的阈值作为属性A二分的阈值.

CART具体流程:创建分类树递归过程中,CART每次都选择当前数据集中具有最小Gini系数的特征作为结点划分决策树

决策树优点:

白盒模型,易于理解和解释 模型建立所需数据量较少 可同时用于分类和回归

决策树的缺点:

容易过拟合,需要多参数调节 对数据敏感,可通过集成算法进行优化 优化过程是局部优化,未必能到全局最优


添加CDA认证专家【维克多阿涛】,微信号:【cdashijiazhuang】,提供数据分析指导及CDA考试秘籍。已助千人通过CDA数字化人才认证。欢迎交流,共同成长!
32.2423 4 2 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子