PhilipLiang
2020-06-18 阅读量: 950
KMeans的原理
KMeans的优点
KMeans的缺点
损失函数(Loss Function )是定义在单个样本上的,算的是一个样本的误差。代价函数(Cost Function )是定义在整个训练集上的,是所有样本误差的平均,也就是损失函数的平均。目标函数(Object Function)定义为:最终需要优化的函数。等于经验风险+结构风险(也就是Cost Function + 正则化项)。PS:关于目标函数和代价函数的区别还有一种通俗的区别:目标函数是
答:cart树本身实现的时候就是二分的二叉树,cart算法先对数据进行二分,然后再计算基尼系数这个指标,最后根据基尼系数这个指标去寻找最优切分点。所以cart树的二分与基尼系数、信息增益率无关。
答:cv指的是scikit-learn的GridSearchCV做K折交叉验证时的k参数,k折交叉验证的逻辑是这样的:1、首先,将全部样本划分成k个大小相等的样本子集;2、依次遍历这k个子集,每次把当前子集作为验证集,其余所有样本作为训练集,进行模型的训练和评估;3、最后把k次评估指标的平均值作为最终的评估指标。在实际实验中,k通常取10.
这两个参数是什么含义?答:这是决策树的剪枝用的超参数,min_samples_split :当前节点至少有多少个样本才能分裂。min_samples_leaf :当前节点分裂后每个叶节点至少有多少样本通过这两个超参数来训练决策树模型,最终得到最优的决策树模型。