不相等,一般属性值是在编程里边用到的内容,例如方法、类、对象等,会说它们有什么属性,模型中也有属性,在pandas里编程的时候,一般将特征叫做columns,
wo5656500
2020-04-27
标准化应用场景:在分类、聚类算法中,需要使用距离来度量相似性的时候、或者使用PCA技术进行降维的时候,Z-score standardization表现更好。 归一化应用场景:在不涉及距离度量、协方差计算、数据不符合正太分布的时候,可以使用第一种方法或其他归一化方法(不包括Z-score方法)。比如图像处理中,将RGB图像转换为灰度图像后将其值限定在[0 255]的范围
wo5656500
2020-04-27
答:简单来说,标准化是依照特征矩阵的列处理数据,其通过求z-score的方法,将样本的特征值转换到同一量纲下。 归一化是依照特征矩阵的行处理数据,其目的在于样本向量在点乘运算或其他核函数计算相似性时,拥有统一的标准,也就是说都转化为“单位向量”。 归一化:这种方法有个缺陷就是当有新数据加入时,可能导致max和min的变化,需要重新定义。另外,最大值与最小值非常容易受异常点影响,所以这种方法鲁棒
wo5656500
2020-04-27
等号右侧对应的是X1和X2的特征,等号左侧就是P除以1-P,P是根据Y的取值和X的条件概率计算出来的
wo5656500
2020-04-23
监督学习(supervised learning):通过已有的训练样本(即已知数据以及其对应的输出)来训练,从而得到一个最优模型,再利用这个模型将所有新的数据样本映射为相应的输出结果,对输出结果进行简单的判断从而实现分类的目的,那么这个最优模型也就具有了对未知数据进行分类的能力。在社会中,我们在很小的时候就被大人教授这是鸟啊,那是猪啊,这个是西瓜、南瓜,这个可以吃、那个不能吃啊之类的,我们眼里见到
wo5656500
2020-04-23
PCA 算法 首先还是简单回顾下 PCA 的算法流程。 我们把样本数据 xx 归一化后,计算其协方差矩阵 CxCx,然后计算 CxCx 的特征向量,构造出一个特征向量矩阵 AA,最后把 xx 通过该矩阵映射到一个新的空间,得到的向量 yy 就是能体现 xx 主要成分的向量了。 PCA 在做什么 那么,这种空间映射有什么意义呢?问题要回到协方差矩阵 CxCx 上。我们知道,协方差矩阵是一个对称矩阵,
wo5656500
2020-04-23
需要如图跑一下特征向量的代码,会得出每一个系数的大小,通过系数可以判定谁大谁小
wo5656500
2020-04-23
哑变量是用以反映质的属性的一个人工变量,是量化了的自变量,通常取值为0或1。引入哑变量可使线形回归模型变得更复杂,但对问题描述更简明,一个方程能达到两个方程的作用,而且接近现实。
wo5656500
2020-04-23
逻辑回归的模型引入了sigmoid函数映射,是非线性模型,但本质上又是一个线性回归模型,因为除去sigmoid映射函数关系,其他的步骤,算法都是线性回归的。可以说,逻辑回归,都是以线性回归为理论支持的。 这里讲到的线性,是说模型关于系数 a 一定是线性形式的 a 加入sigmoid映射后,变成: a 如果分类平面本身就是线性的,那么逻辑回归关于特征变量x,以及关于系数 a 都是线性的 如果
wo5656500
2020-04-22
逻辑回归在解决二分类问题用的是logP/1-P,如果是多分类的话就要区分多分类是有序的还是无序的,如果y=1,2,3这种就是多分类的
wo5656500
2020-04-22
如果数据量比较大的话通常会有一个年份作为标注,一般把最前面年份的数据提取出来,从中再抽取例如10%进行寻找最优参数
wo5656500
2020-04-22
恰恰相反,很大程度会出现过拟合现象,网格搜索是将训练集训练的一堆模型中,选取超参数的所有值(或者代表性的几个值),将这些选取的参数及值全部列出一个表格,并分别将其进行模拟,选出最优模型。
wo5656500
2020-04-22