赵娜0418
2020-02-22 阅读量: 1063
泛化误差的估计有哪些?
答:(1)乐观估计(决策树归纳算法简单的选择产生最低训练误差的模型作为最终的模型)(2)悲观误差估计(使用训练误差与模型复杂度罚项的和计算泛化误差)(3)最小描述长度原则(模型编码的开销加上误分类记录编码的开销)(4)估计统计上界(泛化误差可以用训练误差的统计修正来估计,因为泛化误差倾向于比训练误差大,所以统计修正通常是计算训练误差的上界)(4)使用确认集(如2/3的训练集来建立模型,剩下的用来做误差估计)
损失函数(Loss Function )是定义在单个样本上的,算的是一个样本的误差。代价函数(Cost Function )是定义在整个训练集上的,是所有样本误差的平均,也就是损失函数的平均。目标函数(Object Function)定义为:最终需要优化的函数。等于经验风险+结构风险(也就是Cost Function + 正则化项)。PS:关于目标函数和代价函数的区别还有一种通俗的区别:目标函数是
自助法验证不管是 Holdout 检验还是交叉检验 , 都是基于划分训练集和测试集的方法进行模型评估的 。 然而,当样本规模比较小时,将样本集进行划分会让训练集进一步减小 ,这可能会影响模型训练效果。有没有能维持训练集样本规模的验证方法呢?自助法可以比较好地解决这个问题 。自助法是基于自助采样法的检验方法 。 对于总数为 n 的样本集合 ,进行 n 次有放回的随机抽样 ,得到大小为 n 的训练集
留一验证:每次留下1个样本作为验证集, 其余所有样本作为测试集 。样本总数为 n ,依次对 n 个样本进行遍历,进行 n次验证 ,再将评估指标求平均值得到最终的评估指标 。 在样本总数较多的情况下,留一验证法的时间开销极大 。 事实上,留一验证是留 p 验证的特例 。 留 p 验证是每次留下 p 个样本作为验证集,而从 n 个元素中选择 p 个元素有C种可能, 因此它的时间开销更是远远高于留一验证
k-fold 交叉验证:首先将全部样本划分成 k 个大小相等的样本子集;依次遍历这 k 个子集,每次把当前子集作为验证集,真余所有子集作为训练集,进行模型的训练和评估;最后把 k 次评估指标的平均值作为最终的评估指标 。 在实际实验中, k 经常取 10。