赵娜0418
2020-02-22 阅读量: 603
剪枝:从已生成的树上裁掉一些子树或叶结点,并将其根节点或父结点作为新的叶结点,从而简化分类树模型。
剪枝就是当阿尔法确定时,选择损失函数最小的模型,即损失函数最小的子树。当阿尔法确定时,子树越大,往往与训练数据的拟合越好,但是模型的复杂度就越高,相反,子树越小,模型复杂度就越低,但是往往与训练数据的拟合不好,损失函数正好表示了对两者的平衡
损失函数(Loss Function )是定义在单个样本上的,算的是一个样本的误差。代价函数(Cost Function )是定义在整个训练集上的,是所有样本误差的平均,也就是损失函数的平均。目标函数(Object Function)定义为:最终需要优化的函数。等于经验风险+结构风险(也就是Cost Function + 正则化项)。PS:关于目标函数和代价函数的区别还有一种通俗的区别:目标函数是
自助法验证不管是 Holdout 检验还是交叉检验 , 都是基于划分训练集和测试集的方法进行模型评估的 。 然而,当样本规模比较小时,将样本集进行划分会让训练集进一步减小 ,这可能会影响模型训练效果。有没有能维持训练集样本规模的验证方法呢?自助法可以比较好地解决这个问题 。自助法是基于自助采样法的检验方法 。 对于总数为 n 的样本集合 ,进行 n 次有放回的随机抽样 ,得到大小为 n 的训练集
留一验证:每次留下1个样本作为验证集, 其余所有样本作为测试集 。样本总数为 n ,依次对 n 个样本进行遍历,进行 n次验证 ,再将评估指标求平均值得到最终的评估指标 。 在样本总数较多的情况下,留一验证法的时间开销极大 。 事实上,留一验证是留 p 验证的特例 。 留 p 验证是每次留下 p 个样本作为验证集,而从 n 个元素中选择 p 个元素有C种可能, 因此它的时间开销更是远远高于留一验证
k-fold 交叉验证:首先将全部样本划分成 k 个大小相等的样本子集;依次遍历这 k 个子集,每次把当前子集作为验证集,真余所有子集作为训练集,进行模型的训练和评估;最后把 k 次评估指标的平均值作为最终的评估指标 。 在实际实验中, k 经常取 10。