对于决策树模型和许多其他预测模型,过度拟合是一个重要的实际难题。当学习算法继续开发以
增加测试集错误为代价来减少训练集错误的假设时,发生过度拟合。有几种方法可以避免在构建决策树时过度拟合。
实际上,后修剪过度拟合树的第二种方法更成功,因为不容易精确估计何时停止生长树。 树修剪的重要步骤是使用以下方法之一定义用于确定正确的最终树大小的标准:
第一种方法是最常用的方法。在这种方法中,可用数据被分成两组示例:一组训练集,用于构建决策树,一组验证集,用于评估修剪树的影响。第二种方法也是一种常见的方法。在这里,我们解释错误估计和Chi2测试。
使用错误估计进行后修剪
子树的误差估计是其所有叶的误差估计的加权和。节点的误差估计(e)是:
在下面的例子中,我们将Z设置为0.69,它等于75%的置信度。
父节点的错误率为0.46,并且由于其子节点的错误率(0.51)随着拆分而增加,我们不希望保留子节点。使用Chi2测试进行后修剪在Chi2测试中,我们构造相应的频率表并计算Chi2值及其概率。
青铜银金坏414好212
Chi 2 = 0.21概率= 0.90自由度= 2
如果我们要求概率必须小于极限(例如,0.05),那么我们决定不分割节点。