wo5656500

机器学习中特征值和属性值相等吗?

不相等,一般属性值是在编程里边用到的内容,例如方法、类、对象等,会说它们有什么属性,模型中也有属性,在pandas里编程的时候,一般将特征叫做columns,

wo5656500

2020-04-27

56.6344 3 1
  • 关注作者
  • 收藏

在KNN算法传入数据时是否因为训练集是二维的,所以才传的二维的数据?

不是这样的,所有传入的X都是二维的,所有传入的y都是一维的

wo5656500

2020-04-27

1.6768 2 1
  • 关注作者
  • 收藏

归一化和标准化,分别适用什么场景

标准化应用场景:在分类、聚类算法中,需要使用距离来度量相似性的时候、或者使用PCA技术进行降维的时候,Z-score standardization表现更好。 归一化应用场景:在不涉及距离度量、协方差计算、数据不符合正太分布的时候,可以使用第一种方法或其他归一化方法(不包括Z-score方法)。比如图像处理中,将RGB图像转换为灰度图像后将其值限定在[0 255]的范围

wo5656500

2020-04-27

1.6768 2 3
  • 关注作者
  • 收藏

在KNN算法代码中 np.argmax(cross_score_list) 2这里为什么 2啊?

因为这里K取5,而返回结果为索引值3,所以 2返回为5

wo5656500

2020-04-27

1.6768 2 2
  • 关注作者
  • 收藏

归一化和标准化的区别是什么?

答:简单来说,标准化是依照特征矩阵的列处理数据,其通过求z-score的方法,将样本的特征值转换到同一量纲下。 归一化是依照特征矩阵的行处理数据,其目的在于样本向量在点乘运算或其他核函数计算相似性时,拥有统一的标准,也就是说都转化为“单位向量”。 归一化:这种方法有个缺陷就是当有新数据加入时,可能导致max和min的变化,需要重新定义。另外,最大值与最小值非常容易受异常点影响,所以这种方法鲁棒

wo5656500

2020-04-27

21.7613 3 3
  • 关注作者
  • 收藏

log(p/(1-p))=b0 b1*x1 b2*x2这个公式怎么来的?

等号右侧对应的是X1和X2的特征,等号左侧就是P除以1-P,P是根据Y的取值和X的条件概率计算出来的

wo5656500

2020-04-23

1.5859 1 1
  • 关注作者
  • 收藏

有监督算法和无监督算法的区别是什么?

监督学习(supervised learning):通过已有的训练样本(即已知数据以及其对应的输出)来训练,从而得到一个最优模型,再利用这个模型将所有新的数据样本映射为相应的输出结果,对输出结果进行简单的判断从而实现分类的目的,那么这个最优模型也就具有了对未知数据进行分类的能力。在社会中,我们在很小的时候就被大人教授这是鸟啊,那是猪啊,这个是西瓜、南瓜,这个可以吃、那个不能吃啊之类的,我们眼里见到

wo5656500

2020-04-23

0.7389 1 2
  • 关注作者
  • 收藏

PCA 是干嘛的

PCA 算法 首先还是简单回顾下 PCA 的算法流程。 我们把样本数据 xx 归一化后,计算其协方差矩阵 CxCx,然后计算 CxCx 的特征向量,构造出一个特征向量矩阵 AA,最后把 xx 通过该矩阵映射到一个新的空间,得到的向量 yy 就是能体现 xx 主要成分的向量了。 PCA 在做什么 那么,这种空间映射有什么意义呢?问题要回到协方差矩阵 CxCx 上。我们知道,协方差矩阵是一个对称矩阵,

wo5656500

2020-04-23

2.8407 1 1
  • 关注作者
  • 收藏

pca.explained_variance_ratio_#主成分的解释方差百分比 中已经降序排列,怎么知道是哪个x影响最大?

需要如图跑一下特征向量的代码,会得出每一个系数的大小,通过系数可以判定谁大谁小

wo5656500

2020-04-23

1.5859 1 3
  • 关注作者
  • 收藏

得到一个需要留下的主成分,我如何看该主成分中最大的β值?

最大的β值其实就是影响这个主成分的主要因素,影响因素有很多但是必要有主要的也就是最大的因素

wo5656500

2020-04-23

4.4267 2 2
  • 关注作者
  • 收藏

用主成分的目的是什么呢?

主成分分析试图在力保数据信息丢失最少的原则下,用较少的综合变量代替原本较多的变量,而且综合变量间互不相关。可以理解为降维

wo5656500

2020-04-23

1.5859 1 2
  • 关注作者
  • 收藏

哑变量是干嘛的?

哑变量是用以反映质的属性的一个人工变量,是量化了的自变量,通常取值为0或1。引入哑变量可使线形回归模型变得更复杂,但对问题描述更简明,一个方程能达到两个方程的作用,而且接近现实。

wo5656500

2020-04-23

1.5859 1 2
  • 关注作者
  • 收藏

逻辑回归到底是属于广义线性回归还是非线性回归?

逻辑回归的模型引入了sigmoid函数映射,是非线性模型,但本质上又是一个线性回归模型,因为除去sigmoid映射函数关系,其他的步骤,算法都是线性回归的。可以说,逻辑回归,都是以线性回归为理论支持的。 这里讲到的线性,是说模型关于系数 a 一定是线性形式的 a 加入sigmoid映射后,变成: a 如果分类平面本身就是线性的,那么逻辑回归关于特征变量x,以及关于系数 a 都是线性的 如果

wo5656500

2020-04-22

1.0328 2 5
  • 关注作者
  • 收藏

逻辑分布是二类的,如果是多类的呢?

逻辑回归在解决二分类问题用的是logP/1-P,如果是多分类的话就要区分多分类是有序的还是无序的,如果y=1,2,3这种就是多分类的

wo5656500

2020-04-22

1.0133 1 1
  • 关注作者
  • 收藏

过拟合有什么标准?

1.利用学习曲线判断 2.误差 = 偏差(精确率) 方差(稳定性) 3.下图中虚线为训练集,实线为测试集

wo5656500

2020-04-22

18.0306 2 2
  • 关注作者
  • 收藏

如果数据量很大,如何抽数据在找到最优参数?

如果数据量比较大的话通常会有一个年份作为标注,一般把最前面年份的数据提取出来,从中再抽取例如10%进行寻找最优参数

wo5656500

2020-04-22

1.0133 1 1
  • 关注作者
  • 收藏

交叉得分多少 算过拟合?

只要得分没有超过百分之五就不存在过拟合的现象

wo5656500

2020-04-22

1.0133 1 3
  • 关注作者
  • 收藏

惩罚系数就是交叉验证的循环次数吗?

不是,惩罚系数是正则化算法中的一个概念,交叉验证的次数是K折中的折,不是一个概念

wo5656500

2020-04-22

1.0133 1 0
  • 关注作者
  • 收藏

网格搜索寻找到的最优解,一定不会出现过拟合吧?

恰恰相反,很大程度会出现过拟合现象,网格搜索是将训练集训练的一堆模型中,选取超参数的所有值(或者代表性的几个值),将这些选取的参数及值全部列出一个表格,并分别将其进行模拟,选出最优模型。

wo5656500

2020-04-22

35.3039 3 0
  • 关注作者
  • 收藏

为什么沿着0对称分布没太明白

因为有前提假设,残差汇总以后均值是等于0的,也就意味是对称分布的

wo5656500

2020-04-21

1.0133 1 1
  • 关注作者
  • 收藏
<12314>