wo5656500

ovr:算出来的各分类概率和不等于1,这能比较各分类概率?

有无参数模型在统计和机器学习里面有写略微的差别,相同点的都是看当前这个模型是否有参数, 统计: 有参数的模型是在查看模型当中的参数,在探讨它的分布或者概率 机器学习里面:看的是当前的模型里面是否有参数

wo5656500

2020-05-08

60.2189 1 1
  • 关注作者
  • 收藏

标准化常量? 这是为啥

目的:通过对数据进行标准化处理,得到均值为0,标准差为1的服从标准正态分布的数据。(相对一维数据来说,也就是相对矩阵的每一列,数据的每一个维度) 向量形式,它们的每个元素分布表示矩阵每一列的均值和方差)可以看出矩阵中心化是标准化的一步,将中心化的矩阵除以标准差得到标准化矩阵。 下面解释一下为什么需要使用这些数据预处理步骤: 在一些实际问题中,我们得到的样本数据都是多个维度的,即一个样本是用多个

wo5656500

2020-05-08

26.6533 1 3
  • 关注作者
  • 收藏

如果算A|B 如果他在B里 那么A的概率就高了? 所以公式是有分母的 但是我们算结果的时候不用管?

因为比较概率时,分母都是一样的,所以扔掉分母

wo5656500

2020-05-08

0.0000 0 2
  • 关注作者
  • 收藏

用岭回归和lasso数据预处理时是否用考虑共线性?

用岭回归和lasso做数据预处理的时候不用考虑共线性,它会自动尝试去解决共线性的问题。

wo5656500

2020-05-07

0.1415 1 4
  • 关注作者
  • 收藏

L1和L2惩罚力度区别不是很大吗?

直观上来理解一下, 对损失函数施加 L0/L1/L2 范式约束都会使很多参数接近于0. 但是在接近于0的时候约束力度会有差别. 从导数的角度看, L1正则项 在0附近的导数始终为正负1, 参数更新速度不变. L2 在0附近导数接近于0, 参数更新缓慢. 所以 L1 相比 L2 更容易使参数变成0, 也就更稀疏, 

wo5656500

2020-05-07

0.1415 1 3
  • 关注作者
  • 收藏

数据集不存在共线性,特征值也比较少,是不是不带惩罚项的损失函数就比较好?

是的 减少特征值的方法有 1 去掉取值变化小的特征 Removing features with low variance 2 单变量特征选择 Univariate feature selection 3 线性模型和正则化

wo5656500

2020-05-07

0.1415 1 1
  • 关注作者
  • 收藏

什么是凹凸函数?

凹函数是一个定义在e69da5e6ba90e799bee5baa6e79fa5e9819331333431366365某个向量空间的凸集C(区间)上的实值函数f。设f为定义在区间I上的函数,若对I上的任意两点X1

wo5656500

2020-05-06

57.3238 3 4
  • 关注作者
  • 收藏

引入的lambda会不会消除了共线性而造成了模型的偏差?

不会,因为当前的模型肯定有偏差,我们这个时候就不去讨论统计里面那些偏差的概念啥的了, 直接将问题转化成了优化问题

wo5656500

2020-05-06

0.0869 1 2
  • 关注作者
  • 收藏

为什么在这里填充之后 还需要在这里看剩下的?理论上不是全部都被循环完了吗?

这里应该是填充了所有是object的列 还有 float的没填充

wo5656500

2020-04-30

77.3248 1 2
  • 关注作者
  • 收藏

这个模型做完了,假如在实际业务场景里,对后面的工作有什么样的作用呢?

通过你的模型结果对应的让业务部门针对应的对特定地区,特定人群提供营销,提高转化率,决策会在数据分析报告里呈现

wo5656500

2020-04-30

0.0000 0 5
  • 关注作者
  • 收藏

CART比C4.5好在哪里呢

C4.5是基于ID3优化后产出的算法,主要优化了关于节点分支的计算方式,优化后解决了ID3分支过程中总喜欢偏向取值较多的属性。ID3是信息增益分支,而CART一般是GINI系数分支,C4.5一般是信息增益率分支。 CART和C4.5之间主要差异在于分类结果上,CART可以回归分析也可以分类,C4.5只能做分类;C4.5子节点是可以多分的,而CART是无数个二叉子节点。

wo5656500

2020-04-29

21.0654 1 2
  • 关注作者
  • 收藏

离散化有哪些方法呢

一般有三种方法:集中质量法、广义坐标法、有限单元法

wo5656500

2020-04-29

0.0000 0 1
  • 关注作者
  • 收藏

Information value和Entropy的区别?

1、信息 这个是熵和信息增益的基础概念,我觉得对于这个概念的理解更应该把他认为是一用名称,就比如‘鸡‘(加引号意思是说这个是名称)是用来修饰鸡(没加引号是说存在的动物即鸡),‘狗’是用来修饰狗的,但是假如在鸡还未被命名为'鸡'的时候,鸡被命名为‘狗’,狗未被命名为‘狗’的时候,狗被命名为'鸡',那么现在我们看到狗就会称其为‘鸡’,见到鸡的话会称其为‘鸡’,同理,信息应该是对一个抽象事物的命名,无论

wo5656500

2020-04-29

0.0000 0 6
  • 关注作者
  • 收藏

基尼指数算法的惩罚项是啥?

基尼不纯度指标 在CART算法中, 基尼不纯度表示一个随机选中的样本在子集中被分错的可能性。基尼不纯度为这个样本被选中的概率乘以它被分错的概率。当一个节点中所有样本都是一个类时,基尼不纯度为零。 假设y的可能取值为{1, 2, …, m},令fifi是样本被赋予i的概率,则基尼指数可以通过如下计算: Gini(p)=∑Kk=1pk(1−pk)=1−∑Kk=1p2kGini(p)=∑k=1Kpk(1

wo5656500

2020-04-29

21.0654 1 3
  • 关注作者
  • 收藏

是不是一般来说90上下就不需要去考虑过拟合欠拟合了?

也不是,只要训练集比测试集高就是过拟合

wo5656500

2020-04-29

0.0000 0 1
  • 关注作者
  • 收藏

在kmearn算法中为什么拐点是最佳?

因为在增加簇的过程中,它的组内距离平方和一定会下降的,也就是说只要你的簇增加,曲线一定是下降的,但是同样是下降,但是下降的幅度是不一样的,下降的幅度越大,说明簇的增加起到的作用就越大,从上图中可以看出,2-4簇增加的作用很大,但是从4以后作用效果就不太大了,所以拐点的效果是最佳的。

wo5656500

2020-04-28

57.6269 2 2
  • 关注作者
  • 收藏

0-1标准化这个步骤建议在什么时候做?

0-1标准化这个步骤首先要看你所用的算法是什么,不是所有的算法都需要标准化,像KNN、Kmeans这类算法它是投影到多维空间中计算的就需要标准化,0-1标准化这个步骤建议在拆分数据集后面调参之前做。

wo5656500

2020-04-28

0.2655 1 3
  • 关注作者
  • 收藏

在python可视化为啥要整画布,没有画布,不是也可以画图吗?

因为创建画布可以改变画出来的图形大小,而不创建画布就不可以改变

wo5656500

2020-04-28

0.2655 1 1
  • 关注作者
  • 收藏

决策树都是二叉树?

不是 决策树模型是运用于分类以及回归的一种树结构。决策树由节点和有向边组成,一般一棵决策树包含一个根节点、若干内部节点和若干叶节点。决策树的决策过程需要从决策树的根节点开始,待测数据与决策树中的特征节点进行比较,并按照比较结果选择选择下一比较分支,直到叶子节点作为最终的决策结果。 内部节点:对应于一个属性测试 叶节点:对应于决策结果 根节点包含样本全集; 每个节点包括的样本集合根据属性测试的结

wo5656500

2020-04-28

0.2655 1 2
  • 关注作者
  • 收藏

决策树种熵的理解

决策树是用于分类的统计模型。 熵的概念 熵是来衡量随机变量的不确定性的。Shannon entropy来定量化了这种不确定性。 有以下公式 H(x)=∑iP(xi)I(xi)=−∑iP(xi)logbP(xi) H(x)=∑iP(xi)I(xi)=−∑iP(xi)logbP(xi) 接下来通过例子来说明。 比如投硬币,正面和反面的概率都是1/2,在这种情况下,一个比特就可以来传递每一次的结果。投

wo5656500

2020-04-28

59.8596 3 1
  • 关注作者
  • 收藏
12314>