数据科学专业问答社区，好文章，一字千金--CDA答疑社区

Batch梯度下降和随机梯度下降的区别

BATCH: 计算梯度的过程中，使用整体的数据集来进行梯度的计算，整体的数据是不变的，所以每一次迭代中，计算出来的梯度，方向就比较稳定，但是很容易因为初始值选的不好，很容易陷入局部最优点。BATCH因为是在做矩阵的运算，所以在数据量小的时候，运算书非常快，但是数据量大的时候，矩阵运算速度会变的很慢。 STOCASTIC：计算梯度的过程当中，使用的是随机的一个样本来进行梯度的计算的，所以迭代的

hopeiagt

2020-06-05

51.9626 3 2

简述支持向量（分类）模型算法

最初的支持向量机是由 Vladimir N. Vapnik和Alexey Ya. Chervonenkis在1963年发明的。支持向量机是有监督的机器学习，被广泛应用于处理分类问题或者回归问题，SVC是Support vector classification和SVR是Support vector regression。分类问题如处理离散标签的分类，连续问题如房价预测。支持向量机以分类而闻名，

hopeiagt

2020-06-05

0.0381 1 2

调节超参数都有哪些方法?

1. 手动调节: 手动参数调节更多的是基于建模者对以往经验的总结，通过修改模型的部分参数，了解模型分数对模型参数变化的敏感性。 2. 网格搜索: 又名穷尽的⽹格搜索（Exhaustive Grid Search）。网格搜索方法是通过设置可能的各超参数集合，将所有集合中可能的组合作为超参数，对模型进行一次训练。n个可能的超参数组合意味着n次模型训练。最后，网格搜索的返回值是n次模型训练中模型

hopeiagt

2020-06-05

15.4153 2 0

模型中参数与超参数的区别

参数：是模型内部的配置变量，在机器学习中生成的。超参数：超参数是在机器学习前由用户基于以往的经验填入的实体，它不能通过机器学习自动生成，而必须由外部进行指定。例如逻辑回归，假设y=ax b，其中x是输入数据，通过sigmoid函数变换，模型的输出值为0或1。对于任意给定的数据X，模型都会返回一个a和b与之匹配，其中的a和b就是模型的参数。由于模型的输出值是0或1，因此，决定模型何时输

hopeiagt

2020-06-05

0.1881 2 0

Affinity Propogation最初是由Brendan Frey 和 Delbert Dueck于2007年在Science上提出的。相比其它的聚类算法，Affinity Propogation算法不需要预先指定聚类个数。其算法的原理可以简单的概括为：每一个数据点都会给其它的多有点发送信息，告知其它所有点每个目标对发送者（sender）的相对吸引力的目标值（target）。随后，鉴于从所有

hopeiagt

2020-06-03

18.7403 4 1

网格搜索中的best_score和对应模型最佳参数得出的score为何不同?

如下图代码所示,网格搜索中的best_score_是不同验证集下得分的均值,根据均值的大小,得出对应的最优参数. 而利用模型的最优参数对训练集和测试集进行训练,得出的分数是一次的结果,因此与best_socre_下计算的得分会有差异.

hopeiagt

2020-06-03

33.2258 5 3

scikit-learn中,逻辑回归的两种处理多分类问题的策略,有什么区别吗?

两种策略分别为”ovr”和” multinomial”,其中: “ovr”: 在处理多分类问题时,把其中一类标签作为正类,剩余数据作为负类;在测试时,若只有一个分类器预测为正类则预测结果为该类,若有多个分类器预测为正类,则根据各分类器的预测置信度,选择置信度最大的类别作为标记. “ovr”需要训练n个估计器. “multinomial”: 在处理多分类问题时,任选两类标签,其中一类作为正类,另外

hopeiagt

2020-06-03

14.6360 2 1

何时使用PCA(主成分分析法)?

(1) PCA技术在数据预处理阶段主要处理特征间的多重共线性问题; (2) PCA可以用于高维(有很多特征的情况); (3) PCA可以用于降噪和数据压缩.

hopeiagt

2020-06-02

0.0173 1 3

为什么Lasso regression可以用于特征选择?

Lasso regression 是通过给cost function增加惩罚项来计算回归系数,以达到减少模型中特征个数的目的.惩罚项是惩罚回归系数中不能对数据的变化做出解释的项,来进行特征选择.并且,Lasso还倾向于将对预测效果不好的特征系数设置接近于零. 可以通过如下方式通俗的对Lasso的特征选择进行理解:由于添加L1正则项后,回归系数多出现在拐点,这意味着Lasso方法可以将部分特征的系数

hopeiagt

2020-06-02

13.7879 3 3

为什么岭回归(Ridge regression)可以抑制线性回归中的共线性问题?

以两个特征为例,假设有特征x1和x2,如果x1和x2之间没有共线性或仅有一点共线性(x1和x2在二维空间中展现非线性关系),此时,如果采用线性回归(y = a1x1 a2x2 a3)的方法,拟合的平面(其中y是第三个纬度)是无偏且”最好”的平面.如果x1和x2之间存在较为明显的共线性(x1可以用x2表示,则x1和x2呈一维图像而不是二维图像),如果仍用线性回归对数据进行拟合,会产生无数个与x1和x

hopeiagt

2020-06-02

13.7878 2 2

列举三个KMeans算法的实际应用。

（１）客户细分（Customer segmentation）基于购买记录，性格爱好等能够“描述”客户的特征来对客户进行聚类，将同类型中，客户购买的商品推荐给为购买该商品的客户，以提高销售量。　（２）保险欺诈检测（Insurance fraud detection）。利用历史欺诈数据，找出与以往数据中欺诈案例较接近的“新”索赔，以避免骗保情况的发生。　（３）识别犯罪地点（Identifyi

hopeiagt

2020-05-31

27.3978 3 1

为什么需要对数据进行标准化处理?

当我们想要比较以不同单位为度量的数据时，将不同的特征平移到以０为中心，以１为标准差的附近是十分重要的．变量的不同规模将对结果造成不等的贡献水平（实际我们想要的是基于一个贡献标尺下，计算不同变量对目标对象的影响），从而会造成有偏估计．例如，如果一个变量的变动范围在０到１００００，另一个变量的变动范围在０到１．如果没有标准化的处理，将会造成变动范围在０到１００００的变量对目标值的影响是变动范围在０到１

hopeiagt

2020-05-31

27.1648 2 0

归一化和标准化的区别及如何使用scikit-learn进行处理?

归一化(normalization)和标准化(standardization)是两种对数据去量纲的方法,它的区别如下: 归一化：归一化是将样本的特征值放缩到同一量纲下，缩放后的样本范围处于[0,1]或[-1,1]之间．归一化受样本的异常值影响较大，如果缩放后的数据小数位较多，则在用python计算数据的时候会出现一定偏差．因此，一般数据存在异常值偏差较大时，最好选用标准化对数据进行处理．一般KN

hopeiagt

2020-05-31

27.2220 2 4

在用决策树处理分类问题时，处理样本不均衡前后，为什么有些情况下准确率(accuracy)会下降？

该问题主要出现在样本极端不均衡的情况下,例如:银行对"坏"客户的预测问题. 首先，在不处理样本不均衡的问题时，模型主要学习的是多数类(这里的多数类,少数类指的样本标签)的规律，可能会忽略对少数类规律的学习，因此，模型的准确率会在多数类所占样本比例附近波动．其次，在处理样本不均衡的问题时，会增加少数类的权重，降低多数类的权重．减少模型对多数类的学习，增加模型对少数类的学习，从而以降低对多数类的预

hopeiagt

2020-05-29

16.7106 2 2

如何用通俗的话解释信息熵(entropy)?

以下为用通俗的话来解释信息熵. 信息熵(entropy)指的是你损失掉的信息,信息熵越高,说明损失的信息越多,信息熵越小,损失的信息越少.例如,你想知道我喜欢吃什么美食，我说我喜欢吃中餐，实际上你并不知道我到底喜欢吃什么,只知道我不喜欢西餐.但我具体喜欢什么你不知道,因为中餐包含的美食太多了,此时的信息熵很高.如果我告诉你我喜欢吃中餐里的面食，尽管你还是不知道我到底喜欢吃什么，但是范围却缩小了很多

hopeiagt

2020-05-29

16.7231 2 3

为什么要在精准度和召回率间权衡?

在解决分类问题时，经常会遇到样本不均衡的问题．分类模型更倾向于学习多数类样本的规律，而忽少数类的规律．因此，对于这类问题，仅参考准确率不能评价一个模型拟合的好坏程度的．从而提出了精确度（precision）和召回率（recall）．其中，精确度指的是准确率是对给定数据集，分类正确样本个数和总样本数的比值。即：即它关注多数类．召回率指的是召回率又被称为查全率，用来说明分类器中判定为真的正

hopeiagt

2020-05-29

16.5017 1 5

使用决策树时,为什么有些特征用不到?

因为在某些特征下,标签的纯度已经达到很高的状态(如:90%以上),因此,决策数不再需要使用其它特征进行切分.另一方面,决策数模型在拟合的时候,有些特征不用也是为了降低模型的复杂程度,尽量不让模型过于复杂,提高模型的泛化能力;反之,如果模型太过复杂,容易造成过拟合,影响模型的泛化能力.

hopeiagt

2020-05-29

16.5242 2 0