statsmodels是一个Python模块,它提供对许多不同统计模型估计的类和函数,后边的api是一个接口,就是调用预先定义好的函数。
赵娜0418
2020-04-22
如果数据量特别的大的时候,通常情况下可以看一下你拿到的数据大概是什么年份的,通常会有一个年份作为标注,一般把最新年份的数据提取出来,例如:设置一个条件数据是最近两年的,假设最近两年的数据有一千万行,那么在这些数据里抽取一部分数据,比如说抽取10%,那也就是最终抽取一百万行,然后来搜索这个参数。总体的原则就是最近的数据抽取一个样本,这个样本通常是百分之五到百分之二十之间抽。
赵娜0418
2020-04-22
监督学习是一种目的明确的训练方式,你知道得到的是什么;而无监督学习则是没有明确目的的训练方式,你无法提前知道结果是什么。 监督学习需要给数据打标签;而无监督学习不需要给数据打标签。 监督学习由于目标明确,所以可以衡量效果;而无监督学习几乎无法量化效果如何。 无监督学习是一种机器学习的训练方式,它本质上是一个统计手段,在没有标签的数据里可以发现潜在的一些结构的一种训练方式。
赵娜0418
2020-04-22
若epsilon可以看做许多微小量(元误差,即上面问题中的随机变量)叠加起来的综合,那么根据CLT,epsilon服从于正态分布.
赵娜0418
2020-04-22
岭回归和LASSO是有偏的,最小二乘是无偏的,但是这个有偏性在小型数据中,如果你的数据量只有几百个,有偏性造成的影响还是挺大的,但是如果数据量大的话,成万的或者几十万的,这个有偏性的影响是不大的,所以岭回归和LASSO一般用在大数据中。
赵娜0418
2020-04-21
回归分析其实就是把有时间的先后性、有相关,有理论支持这三个因素结合在一起衍生出来的一个统计技术,这个统计技术有利于解决因果类问题,所以一般是用回归做因果判断,所谓的因果判断就是所谓的归一。
赵娜0418
2020-04-21
相关一般是讲两个变量之间出现的朴素的相关关系,但是因果是一个导向,因果有一个时间的先后性,相关实际上是因果的一个指标,一是有时间的先后性,二是有相关,三是有理论支持,这三个条件聚合在一起才可以可以去谈因果性,所以相关可以看做是因果中的一个指标
赵娜0418
2020-04-21
arr1=[2,7,11,15] target=9 def solution(arr1,target): if len(arr1) < 2: return for i in range(0, len(arr1) - 1): for j in range(i 1, len(arr1)): if arr1[i] arr
赵娜0418
2020-04-20
loc函数和iloc函数都是DataFrame 中 取值操作的函数 这两个函数有两个不同点 ① 使用参数不同 loc 函数里面需要填写的数据索引是标签,而标签就是行名,列名 iloc 函数里面需要填写的数据索引是位置,即第几行第几列 ② 返回结果不同 loc 函数返回的数据遵循左右都开的形式 iloc函数返回的数据则是遵循左开右闭的形式
赵娜0418
2020-04-20
iloc(integer location)为Selection by Position函数,即通过位置(轴0到轴-1)来索引数据,由于iloc函数中索引的位置是int类型,在选取行列时要注意前闭后开。所以上图中1,3,5是索引值,2,4,6是返回值所代表的的行数
赵娜0418
2020-04-20
numpy.full_like() 语法:numpy.full_like(a, fill_value, dtype=None, order='K', subok=True)[source] 参数:a : array_like。用a的形状和数据类型,来定义返回数组的属性。 fill_value : 标量。数组中元素的值 dtype : 数据类型, 可选。覆盖结果的数据类型。
赵娜0418
2020-04-20
函数:np.eye()
函数的原型:numpy.eye(N,M=None,k=0,dtype=
赵娜0418
2020-04-20
如上图所示,在管理员窗口打开jupyter notebook的时候一直停留在这个页面,无法跳转到浏览器,解决此类问题需要以下几步 1、打开Anoconda Prompt,输入命令 jupyter notebook --generate-config,回车执行后系统会自动产生一个名为jupyter_notebook_config.py的文件,并且Anoconda Prompt窗口中会给出文件
赵娜0418
2020-04-20
默认提取的是第一个,但是可以根据自己需要指定提取的文件,如下图所示,按照文件所在的位置,sheet_name=0是第一个文件的位置,sheet_name=1是第二个文件的位置,以此类推
赵娜0418
2020-04-19