hopeiagt

Batch梯度下降和随机梯度下降的区别

BATCH: 计算梯度的过程中,使用整体的数据集来进行梯度的计算,整体的数据是不变的,所以每一次迭代中,计算出来的梯度,方向就比较稳定,但是很容易因为初始值选的不好,很容易陷入局部最优点。BATCH因为是在做矩阵的运算,所以在数据量小的时候,运算书非常快,但是数据量大的时候,矩阵运算速度会变的很慢。 STOCASTIC:计算梯度的过程当中,使用的是随机的一个样本来进行梯度的计算的,所以迭代的

hopeiagt

2020-06-05

51.9626 3 2
  • 关注作者
  • 收藏

简述支持向量(分类)模型算法

最初的支持向量机是由 Vladimir N. Vapnik和Alexey Ya. Chervonenkis在1963年发明的。支持向量机是有监督的机器学习,被广泛应用于处理分类问题或者回归问题,SVC是Support vector classification和SVR是Support vector regression。分类问题如处理离散标签的分类,连续问题如房价预测。 支持向量机以分类而闻名,

hopeiagt

2020-06-05

0.0381 1 2
  • 关注作者
  • 收藏

调节超参数都有哪些方法?

1. 手动调节: 手动参数调节更多的是基于建模者对以往经验的总结,通过修改模型的部分参数,了解模型分数对模型参数变化的敏感性。 2. 网格搜索: 又名穷尽的⽹格搜索(Exhaustive Grid Search)。网格搜索方法是通过设置可能的各超参数集合,将所有集合中可能的组合作为超参数,对模型进行一次训练。n个可能的超参数组合意味着n次模型训练。最后, 网格搜索的返回值是n次模型训练中模型

hopeiagt

2020-06-05

15.4153 2 0
  • 关注作者
  • 收藏

模型中参数与超参数的区别

参数:是模型内部的配置变量,在机器学习中生成的。 超参数:超参数是在机器学习前由用户基于以往的经验填入的实体,它不能通过机器学习自动生成,而必须由外部进行指定。 例如逻辑回归,假设y=ax b,其中x是输入数据,通过sigmoid函数变换,模型的输出值为0或1。 对于任意给定的数据X,模型都会返回一个a和b与之匹配,其中的a和b就是模型的参数。由于模型的输出值是0或1,因此,决定模型何时输

hopeiagt

2020-06-05

0.1881 2 0
  • 关注作者
  • 收藏

什么是Affinity Propogation算法?

Affinity Propogation最初是由Brendan Frey 和 Delbert Dueck于2007年在Science上提出的。相比其它的聚类算法,Affinity Propogation算法不需要预先指定聚类个数。其算法的原理可以简单的概括为:每一个数据点都会给其它的多有点发送信息,告知其它所有点每个目标对发送者(sender)的相对吸引力的目标值(target)。随后,鉴于从所有

hopeiagt

2020-06-03

18.7403 4 1
  • 关注作者
  • 收藏

网格搜索中的best_score和对应模型最佳参数得出的score为何不同?

如下图代码所示,网格搜索中的best_score_是不同验证集下得分的均值,根据均值的大小,得出对应的最优参数. 而利用模型的最优参数对训练集和测试集进行训练,得出的分数是一次的结果,因此与best_socre_下计算的得分会有差异.

hopeiagt

2020-06-03

33.2258 5 3
  • 关注作者
  • 收藏

scikit-learn中,逻辑回归的两种处理多分类问题的策略,有什么区别吗?

两种策略分别为”ovr”和” multinomial”,其中: “ovr”: 在处理多分类问题时,把其中一类标签作为正类,剩余数据作为负类;在测试时,若只有一个分类器预测为正类则预测结果为该类,若有多个分类器预测为正类,则根据各分类器的预测置信度,选择置信度最大的类别作为标记. “ovr”需要训练n个估计器. “multinomial”: 在处理多分类问题时,任选两类标签,其中一类作为正类,另外

hopeiagt

2020-06-03

14.6360 2 1
  • 关注作者
  • 收藏

何时使用PCA(主成分分析法)?

(1) PCA技术在数据预处理阶段主要处理特征间的多重共线性问题; (2) PCA可以用于高维(有很多特征的情况); (3) PCA可以用于降噪和数据压缩.

hopeiagt

2020-06-02

0.0173 1 3
  • 关注作者
  • 收藏

为什么Lasso regression可以用于特征选择?

Lasso regression 是通过给cost function增加惩罚项来计算回归系数,以达到减少模型中特征个数的目的.惩罚项是惩罚回归系数中不能对数据的变化做出解释的项,来进行特征选择.并且,Lasso还倾向于将对预测效果不好的特征系数设置接近于零. 可以通过如下方式通俗的对Lasso的特征选择进行理解:由于添加L1正则项后,回归系数多出现在拐点,这意味着Lasso方法可以将部分特征的系数

hopeiagt

2020-06-02

13.7879 3 3
  • 关注作者
  • 收藏

为什么岭回归(Ridge regression)可以抑制线性回归中的共线性问题?

以两个特征为例,假设有特征x1和x2,如果x1和x2之间没有共线性或仅有一点共线性(x1和x2在二维空间中展现非线性关系),此时,如果采用线性回归(y = a1x1 a2x2 a3)的方法,拟合的平面(其中y是第三个纬度)是无偏且”最好”的平面.如果x1和x2之间存在较为明显的共线性(x1可以用x2表示,则x1和x2呈一维图像而不是二维图像),如果仍用线性回归对数据进行拟合,会产生无数个与x1和x

hopeiagt

2020-06-02

13.7878 2 2
  • 关注作者
  • 收藏

列举三个KMeans算法的实际应用。

(1) 客户细分(Customer segmentation)基于购买记录,性格爱好等能够“描述”客户的特征来对客户进行聚类,将同类型中,客户购买的商品推荐给为购买该商品的客户,以提高销售量。  (2) 保险欺诈检测(Insurance fraud detection)。利用历史欺诈数据,找出与以往数据中欺诈案例较接近的“新”索赔,以避免骗保情况的发生。  (3) 识别犯罪地点(Identifyi

hopeiagt

2020-05-31

27.3978 3 1
  • 关注作者
  • 收藏

为什么需要对数据进行标准化处理?

当我们想要比较以不同单位为度量的数据时,将不同的特征平移到以0为中心,以1为标准差的附近是十分重要的.变量的不同规模将对结果造成不等的贡献水平(实际我们想要的是基于一个贡献标尺下,计算不同变量对目标对象的影响),从而会造成有偏估计.例如,如果一个变量的变动范围在0到10000,另一个变量的变动范围在0到1.如果没有标准化的处理,将会造成变动范围在0到10000的变量对目标值的影响是变动范围在0到1

hopeiagt

2020-05-31

27.1648 2 0
  • 关注作者
  • 收藏

归一化和标准化的区别及如何使用scikit-learn进行处理?

归一化(normalization)和标准化(standardization)是两种对数据去量纲的方法,它的区别如下: 归一化:归一化是将样本的特征值放缩到同一量纲下,缩放后的样本范围处于[0,1]或[-1,1]之间.归一化受样本的异常值影响较大,如果缩放后的数据小数位较多,则在用python计算数据的时候会出现一定偏差.因此,一般数据存在异常值偏差较大时,最好选用标准化对数据进行处理.一般KN

hopeiagt

2020-05-31

27.2220 2 4
  • 关注作者
  • 收藏

在用决策树处理分类问题时,处理样本不均衡前后,为什么有些情况下准确率(accuracy)会下降?

该问题主要出现在样本极端不均衡的情况下,例如:银行对"坏"客户的预测问题. 首先,在不处理样本不均衡的问题时,模型主要学习的是多数类(这里的多数类,少数类指的样本标签)的规律,可能会忽略对少数类规律的学习,因此,模型的准确率会在多数类所占样本比例附近波动. 其次,在处理样本不均衡的问题时,会增加少数类的权重,降低多数类的权重.减少模型对多数类的学习,增加模型对少数类的学习,从而以降低对多数类的预

hopeiagt

2020-05-29

16.7106 2 2
  • 关注作者
  • 收藏

如何用通俗的话解释信息熵(entropy)?

以下为用通俗的话来解释信息熵. 信息熵(entropy)指的是你损失掉的信息,信息熵越高,说明损失的信息越多,信息熵越小,损失的信息越少.例如,你想知道我喜欢吃什么美食,我说我喜欢吃中餐,实际上你并不知道我到底喜欢吃什么,只知道我不喜欢西餐.但我具体喜欢什么你不知道,因为中餐包含的美食太多了,此时的信息熵很高.如果我告诉你我喜欢吃中餐里的面食,尽管你还是不知道我到底喜欢吃什么,但是范围却缩小了很多

hopeiagt

2020-05-29

16.7231 2 3
  • 关注作者
  • 收藏

为什么要在精准度和召回率间权衡?

在解决分类问题时,经常会遇到样本不均衡的问题.分类模型更倾向于学习多数类样本的规律,而忽少数类的规律.因此,对于这类问题,仅参考准确率不能评价一个模型拟合的好坏程度的.从而提出了精确度(precision)和召回率(recall). 其中,精确度指的是准确率是对给定数据集,分类正确样本个数和总样本数的比值。即: 即它关注多数类. 召回率指的是召回率又被称为查全率,用来说明分类器中判定为真的正

hopeiagt

2020-05-29

16.5017 1 5
  • 关注作者
  • 收藏

使用决策树时,为什么有些特征用不到?

因为在某些特征下,标签的纯度已经达到很高的状态(如:90%以上),因此,决策数不再需要使用其它特征进行切分.另一方面,决策数模型在拟合的时候,有些特征不用也是为了降低模型的复杂程度,尽量不让模型过于复杂,提高模型的泛化能力;反之,如果模型太过复杂,容易造成过拟合,影响模型的泛化能力.

hopeiagt

2020-05-29

16.5242 2 0
  • 关注作者
  • 收藏