数据科学专业问答社区，好文章，一字千金--CDA答疑社区

机器学习中特征值和属性值相等吗？

不相等，一般属性值是在编程里边用到的内容，例如方法、类、对象等，会说它们有什么属性，模型中也有属性，在pandas里编程的时候，一般将特征叫做columns，

wo5656500

2020-04-27

56.6344 3 1

在KNN算法传入数据时是否因为训练集是二维的，所以才传的二维的数据？

不是这样的，所有传入的X都是二维的,所有传入的y都是一维的

wo5656500

2020-04-27

1.6768 2 1

归一化和标准化，分别适用什么场景

标准化应用场景：在分类、聚类算法中，需要使用距离来度量相似性的时候、或者使用PCA技术进行降维的时候，Z-score standardization表现更好。归一化应用场景：在不涉及距离度量、协方差计算、数据不符合正太分布的时候，可以使用第一种方法或其他归一化方法（不包括Z-score方法）。比如图像处理中，将RGB图像转换为灰度图像后将其值限定在[0 255]的范围

wo5656500

2020-04-27

1.6768 2 3

在KNN算法代码中 np.argmax(cross_score_list) 2这里为什么 2啊？

因为这里K取5，而返回结果为索引值3，所以 2返回为5

wo5656500

2020-04-27

1.6768 2 2

归一化和标准化的区别是什么？

答：简单来说，标准化是依照特征矩阵的列处理数据，其通过求z-score的方法，将样本的特征值转换到同一量纲下。归一化是依照特征矩阵的行处理数据，其目的在于样本向量在点乘运算或其他核函数计算相似性时，拥有统一的标准，也就是说都转化为“单位向量”。归一化：这种方法有个缺陷就是当有新数据加入时，可能导致max和min的变化，需要重新定义。另外，最大值与最小值非常容易受异常点影响，所以这种方法鲁棒

wo5656500

2020-04-27

21.7613 3 3

log（p/(1-p)）=b0 b1x1 b2x2这个公式怎么来的？

等号右侧对应的是X1和X2的特征，等号左侧就是P除以1-P，P是根据Y的取值和X的条件概率计算出来的

wo5656500

2020-04-23

1.5859 1 1

监督学习（supervised learning）：通过已有的训练样本（即已知数据以及其对应的输出）来训练，从而得到一个最优模型，再利用这个模型将所有新的数据样本映射为相应的输出结果，对输出结果进行简单的判断从而实现分类的目的，那么这个最优模型也就具有了对未知数据进行分类的能力。在社会中，我们在很小的时候就被大人教授这是鸟啊，那是猪啊，这个是西瓜、南瓜，这个可以吃、那个不能吃啊之类的，我们眼里见到

wo5656500

2020-04-23

0.7389 1 2

PCA 是干嘛的

PCA 算法首先还是简单回顾下 PCA 的算法流程。我们把样本数据 xx 归一化后，计算其协方差矩阵 CxCx，然后计算 CxCx 的特征向量，构造出一个特征向量矩阵 AA，最后把 xx 通过该矩阵映射到一个新的空间，得到的向量 yy 就是能体现 xx 主要成分的向量了。 PCA 在做什么那么，这种空间映射有什么意义呢？问题要回到协方差矩阵 CxCx 上。我们知道，协方差矩阵是一个对称矩阵，

wo5656500

2020-04-23

2.8407 1 1

pca.explained_variance_ratio_#主成分的解释方差百分比中已经降序排列，怎么知道是哪个x影响最大？

需要如图跑一下特征向量的代码，会得出每一个系数的大小，通过系数可以判定谁大谁小

wo5656500

2020-04-23

1.5859 1 3

得到一个需要留下的主成分，我如何看该主成分中最大的β值？

最大的β值其实就是影响这个主成分的主要因素，影响因素有很多但是必要有主要的也就是最大的因素

wo5656500

2020-04-23

4.4267 2 2

用主成分的目的是什么呢？

主成分分析试图在力保数据信息丢失最少的原则下，用较少的综合变量代替原本较多的变量，而且综合变量间互不相关。可以理解为降维

wo5656500

2020-04-23

1.5859 1 2

哑变量是干嘛的？

哑变量是用以反映质的属性的一个人工变量，是量化了的自变量，通常取值为0或1。引入哑变量可使线形回归模型变得更复杂，但对问题描述更简明，一个方程能达到两个方程的作用，而且接近现实。

wo5656500

2020-04-23

1.5859 1 2

逻辑回归到底是属于广义线性回归还是非线性回归？

逻辑回归的模型引入了sigmoid函数映射，是非线性模型，但本质上又是一个线性回归模型，因为除去sigmoid映射函数关系，其他的步骤，算法都是线性回归的。可以说，逻辑回归，都是以线性回归为理论支持的。这里讲到的线性，是说模型关于系数 a 一定是线性形式的 a 加入sigmoid映射后，变成： a 如果分类平面本身就是线性的，那么逻辑回归关于特征变量x，以及关于系数 a 都是线性的如果

wo5656500

2020-04-22

1.0328 2 5