数据科学专业问答社区，好文章，一字千金--CDA答疑社区

ovr：算出来的各分类概率和不等于1，这能比较各分类概率？

有无参数模型在统计和机器学习里面有写略微的差别，相同点的都是看当前这个模型是否有参数，统计: 有参数的模型是在查看模型当中的参数，在探讨它的分布或者概率机器学习里面：看的是当前的模型里面是否有参数

wo5656500

2020-05-08

60.2189 1 1

标准化常量? 这是为啥

目的：通过对数据进行标准化处理，得到均值为0，标准差为1的服从标准正态分布的数据。（相对一维数据来说，也就是相对矩阵的每一列，数据的每一个维度）向量形式，它们的每个元素分布表示矩阵每一列的均值和方差）可以看出矩阵中心化是标准化的一步，将中心化的矩阵除以标准差得到标准化矩阵。下面解释一下为什么需要使用这些数据预处理步骤：在一些实际问题中，我们得到的样本数据都是多个维度的，即一个样本是用多个

wo5656500

2020-05-08

26.6533 1 3

如果算A|B 如果他在B里那么A的概率就高了? 所以公式是有分母的但是我们算结果的时候不用管?

因为比较概率时，分母都是一样的，所以扔掉分母

wo5656500

2020-05-08

0.0000 0 2

用岭回归和lasso数据预处理时是否用考虑共线性？

用岭回归和lasso做数据预处理的时候不用考虑共线性，它会自动尝试去解决共线性的问题。

wo5656500

2020-05-07

0.1415 1 4

L1和L2惩罚力度区别不是很大吗？

直观上来理解一下, 对损失函数施加 L0/L1/L2 范式约束都会使很多参数接近于0. 但是在接近于0的时候约束力度会有差别. 从导数的角度看, L1正则项在0附近的导数始终为正负1, 参数更新速度不变. L2 在0附近导数接近于0, 参数更新缓慢. 所以 L1 相比 L2 更容易使参数变成0, 也就更稀疏,

wo5656500

2020-05-07

0.1415 1 3

数据集不存在共线性，特征值也比较少，是不是不带惩罚项的损失函数就比较好？

是的减少特征值的方法有 1 去掉取值变化小的特征 Removing features with low variance 2 单变量特征选择 Univariate feature selection 3 线性模型和正则化

wo5656500

2020-05-07

0.1415 1 1

什么是凹凸函数？

凹函数是一个定义在e69da5e6ba90e799bee5baa6e79fa5e9819331333431366365某个向量空间的凸集C（区间）上的实值函数f。设f为定义在区间I上的函数，若对I上的任意两点X1

wo5656500

2020-05-06

57.3238 3 4

引入的lambda会不会消除了共线性而造成了模型的偏差？

不会，因为当前的模型肯定有偏差，我们这个时候就不去讨论统计里面那些偏差的概念啥的了，直接将问题转化成了优化问题

wo5656500

2020-05-06

0.0869 1 2

为什么在这里填充之后还需要在这里看剩下的？理论上不是全部都被循环完了吗？

这里应该是填充了所有是object的列还有 float的没填充

wo5656500

2020-04-30

77.3248 1 2

这个模型做完了，假如在实际业务场景里，对后面的工作有什么样的作用呢？

通过你的模型结果对应的让业务部门针对应的对特定地区，特定人群提供营销，提高转化率，决策会在数据分析报告里呈现

wo5656500

2020-04-30

0.0000 0 5

CART比C4.5好在哪里呢

C4.5是基于ID3优化后产出的算法，主要优化了关于节点分支的计算方式，优化后解决了ID3分支过程中总喜欢偏向取值较多的属性。ID3是信息增益分支，而CART一般是GINI系数分支，C4.5一般是信息增益率分支。 CART和C4.5之间主要差异在于分类结果上，CART可以回归分析也可以分类，C4.5只能做分类；C4.5子节点是可以多分的，而CART是无数个二叉子节点。

wo5656500

2020-04-29

21.0654 1 2

离散化有哪些方法呢

一般有三种方法：集中质量法、广义坐标法、有限单元法

wo5656500

2020-04-29

0.0000 0 1

Information value和Entropy的区别？

1、信息这个是熵和信息增益的基础概念，我觉得对于这个概念的理解更应该把他认为是一用名称，就比如‘鸡‘(加引号意思是说这个是名称)是用来修饰鸡(没加引号是说存在的动物即鸡)，‘狗’是用来修饰狗的，但是假如在鸡还未被命名为'鸡'的时候，鸡被命名为‘狗’，狗未被命名为‘狗’的时候，狗被命名为'鸡'，那么现在我们看到狗就会称其为‘鸡’，见到鸡的话会称其为‘鸡’，同理，信息应该是对一个抽象事物的命名，无论

wo5656500

2020-04-29

0.0000 0 6

基尼指数算法的惩罚项是啥？

基尼不纯度指标在CART算法中, 基尼不纯度表示一个随机选中的样本在子集中被分错的可能性。基尼不纯度为这个样本被选中的概率乘以它被分错的概率。当一个节点中所有样本都是一个类时，基尼不纯度为零。假设y的可能取值为{1, 2, …, m},令fifi是样本被赋予i的概率，则基尼指数可以通过如下计算： Gini(p)=∑Kk=1pk(1−pk)=1−∑Kk=1p2kGini(p)=∑k=1Kpk(1

wo5656500

2020-04-29

21.0654 1 3

是不是一般来说90上下就不需要去考虑过拟合欠拟合了?

也不是,只要训练集比测试集高就是过拟合

wo5656500

2020-04-29

0.0000 0 1

在kmearn算法中为什么拐点是最佳？

因为在增加簇的过程中，它的组内距离平方和一定会下降的，也就是说只要你的簇增加，曲线一定是下降的，但是同样是下降，但是下降的幅度是不一样的，下降的幅度越大，说明簇的增加起到的作用就越大，从上图中可以看出，2-4簇增加的作用很大，但是从4以后作用效果就不太大了，所以拐点的效果是最佳的。

wo5656500

2020-04-28

57.6269 2 2

0-1标准化这个步骤建议在什么时候做？

0-1标准化这个步骤首先要看你所用的算法是什么，不是所有的算法都需要标准化，像KNN、Kmeans这类算法它是投影到多维空间中计算的就需要标准化，0-1标准化这个步骤建议在拆分数据集后面调参之前做。

wo5656500

2020-04-28

0.2655 1 3

在python可视化为啥要整画布，没有画布，不是也可以画图吗？

因为创建画布可以改变画出来的图形大小，而不创建画布就不可以改变

wo5656500

2020-04-28

0.2655 1 1

决策树都是二叉树？

不是决策树模型是运用于分类以及回归的一种树结构。决策树由节点和有向边组成，一般一棵决策树包含一个根节点、若干内部节点和若干叶节点。决策树的决策过程需要从决策树的根节点开始，待测数据与决策树中的特征节点进行比较，并按照比较结果选择选择下一比较分支，直到叶子节点作为最终的决策结果。内部节点：对应于一个属性测试叶节点：对应于决策结果根节点包含样本全集；每个节点包括的样本集合根据属性测试的结

wo5656500

2020-04-28

0.2655 1 2

决策树种熵的理解

决策树是用于分类的统计模型。熵的概念熵是来衡量随机变量的不确定性的。Shannon entropy来定量化了这种不确定性。有以下公式 H(x)=∑iP(xi)I(xi)=−∑iP(xi)logbP(xi) H(x)=∑iP(xi)I(xi)=−∑iP(xi)logbP(xi) 接下来通过例子来说明。比如投硬币，正面和反面的概率都是1/2，在这种情况下，一个比特就可以来传递每一次的结果。投

wo5656500

2020-04-28

59.8596 3 1