809669515

2018-11-01   阅读量: 1311

数据分析师 数据挖掘 机器学习

如何处理决策树的过度拟合问题?

扫码加入数据分析学习群

对于决策树模型和许多其他预测模型,过度拟合是一个重要的实际难题。当学习算法继续开发以

增加测试集错误为代价来减少训练集错误的假设时,发生过度拟合。有几种方法可以避免在构建决策树时过度拟合。 

  • 在完全对训练集进行分类之前,预先修剪停止生长树。
  • 后修剪,允许树完美地对训练集进行分类,然后修剪树。 

实际上,后修剪过度拟合树的第二种方法更成功,因为不容易精确估计何时停止生长树。 树修剪的重要步骤是使用以下方法之一定义用于确定正确的最终树大小的标准:

  1. 使用来自训练集(称为验证集)的不同数据集来评估树中修剪后节点的效果。
  2. 使用训练集构建树,然后应用统计测试来估计修剪或扩展特定节点是否可能产生超出训练集的改进。
    • 错误估计
    • 显着性检验(例如,卡方检验)

  1. 最小描述长度原则:使用对复杂性的显式度量来编码训练集和决策树,当此编码大小(大小(树)+大小(错误分类(树))最小化时停止树的增长。

第一种方法是最常用的方法。在这种方法中,可用数据被分成两组示例:一组训练集,用于构建决策树,一组验证集,用于评估修剪树的影响。第二种方法也是一种常见的方法。在这里,我们解释错误估计和Chi2测试。 

使用错误估计进行后修剪

子树的误差估计是其所有叶的误差估计的加权和。节点的误差估计(e)是:

在下面的例子中,我们将Z设置为0.69,它等于75%的置信度。

父节点的错误率为0.46,并且由于其子节点的错误率(0.51)随着拆分而增加,我们不希望保留子节点。使用Chi2测试进行后修剪Chi2测试中,我们构造相应的频率表并计算Chi2值及其概率。

青铜银金坏414好212

Chi 2 = 0.21概率= 0.90自由度= 2

如果我们要求概率必须小于极限(例如,0.05),那么我们决定不分割节点。

6.8974 1 3 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子