haoyumeng

几种机器学习方法

监督学习又称有导师学习,导师提供对错,目的是获得泛化能力常用方法:决策树常用场景:垃圾邮件分类,声音图像处理,股票预测无监督学习自学,不限于解决有正确答案的问题,目标无需明确常用方法:聚类学习常用场景:卫星故障诊断,视频分析,数据可视化半监督学习部分被标识,部分没有标识步骤:对10000有标签的数据进行建模对100000个无标签的进行预测对10000+50000的训练集建立模型(假设有50000的

haoyumeng

2020-08-04

35.0103 3 1
  • 关注作者
  • 收藏

回归平方和 ESS,残差平方和 RSS,总体平方和 TSS

回归平方和 ESS,残差平方和 RSS,总体平方和 TSS 总变差 (TSS):被解释变量Y的观测值与其平均值的离差平方和(总平方和)(说明 Y 的总变动程度)解释了的变差 (ESS):被解释变量Y的估计值与其平均值的离差平方和(回归平方和)剩余平方和 (RSS):被解释变量观测值与估计值之差的平方和(未解释的平方和)他们的关系是TSS=RSS+

haoyumeng

2020-08-03

45.5756 4 2
  • 关注作者
  • 收藏

最小二乘法

最小二乘法 Method of Ordinary Least Squares 原理:构造合适的估计量,使得残差平方和(Residual Sum of Squares, RSS)最小。 Sum(ui^2) = Sum{(Yi - B1 - B2Xi)^2} 然后,RSS对B1和B2求偏导数。 令一阶偏导为0,代入得B1、B2

haoyumeng

2020-08-03

45.5756 4 5
  • 关注作者
  • 收藏

过拟合和欠拟合

过拟合:模型对训练集中的数据模拟的太好了,原因一般在于训练数据量小,模型过于复杂,特征维度过多,参数过多,噪声过多,连训练集中的噪声都能完美预测,这样的模型放在测试集中表现就不好了,泛化能力差。一般用正则化降低参数值,减少特征维度来解决过拟合的问题。解决方法:从数据源头获取更多的数据,数据增强使用合适的模型,减少网络层数,神经元个数,限制网络的拟合能力dropout正则化,在训练师限制权值变大数据

haoyumeng

2020-07-29

28.2525 2 2
  • 关注作者
  • 收藏

unique和nunique的区别

unique():以数组形式返回列的所有的唯一值,即特征的所有唯一值nunique():返回唯一值的个数

haoyumeng

2020-07-27

31.5186 5 1
  • 关注作者
  • 收藏

type/dtype/astype的区别

type 获取数据类型,list,dict,numpy,ndarraydtype 数组元素的类型,不能在list和dic里用astype 修改数据类型,能用dtype才能用astype

haoyumeng

2020-07-23

35.7975 2 4
  • 关注作者
  • 收藏

pandas提取数据信息的一些方法

一个例子:一下是一些股票代码和股票名称,300783 三只松鼠601236 红塔证券603256 宏和科技601698 中国卫通603867 新化股份600968 海油发展300594 朗进科技603863 松炀资源603217 元利科技将这列数据创建成一个 Series,股票名称作为索引,股票代码是数据.data = [300783,601236,603256,601698 ,603867,60

haoyumeng

2020-07-21

40.1654 3 2
  • 关注作者
  • 收藏

常用数组

全0阵np.zeros((3, 5), dtype=int) (形状,数据类型)全1阵np.ones((3, 3, 3), dtype="int32") (形状,数据类型)单位阵np.eye(3, dtype=int) (行列数,数据类型)对角阵np.diag([1, 5, 300, 444, 44, 666, 77]) 对角的数值 设置具体的值阵np.

haoyumeng

2020-07-20

27.6626 3 2
  • 关注作者
  • 收藏

Python_write和writelines的区别

1 write()需要传入一个字符串做为参数,否则会报错2 writelines()既可以传入字符串又可以传入一个字符序列,并将该字符序列写入文件注意:writelines必须传入的是字符序列,不能是数字序列 如:list_1023 = [1,2,3,4,5]报错:TypeError: write() argument must be str, not list

haoyumeng

2020-07-16

19.8542 1 1
  • 关注作者
  • 收藏

jupyter notebook 添加目录

打开Anaconda Promt输入pip install jupyter_contrib_nbextensions然后回车运行,来安装jupyter_contrib_nbextensions模块。中途会出来y/n的选项,输入y,然后回车,直到出现Successfully installed标志。继续输入jupyter contrib nbextension install --user然后回车,

haoyumeng

2020-07-15

13.6359 4 1
  • 关注作者
  • 收藏

break和continue的使用和区别

break:中途退出,结束整个循环name = '我想要去打游戏,不想学习'for x in name: if x == ',': break print(x)我 想要去打游戏continue:结束当前循环,进入下一循环name = '我想要去打游戏,不想学习'for x in name: if x == ',': continue pri

haoyumeng

2020-07-14

13.6014 2 0
  • 关注作者
  • 收藏

字符串的格式化-用format填充字符串的三种方式

1、当大括号里面为空时, 后面的参数值按照顺序依次填充web = '{}.{}.{}' x = 'map'y = 'baidu'z = 'qq'web.format(x,y,z)OUT : 'map.baidu.qq'2、当大括号中使用数字时,将字符串填充到对应数字的大括号中web='{2}.{1}.{0}'x='map'y='baidu'z='qq'web.format(x,y,z)OUT :

haoyumeng

2020-07-13

34.9110 2 2
  • 关注作者
  • 收藏

python内部保留关键字,不可做变量名:

python内部保留关键字,不可做变量名:['False', 'None', 'True', 'and', 'as', 'assert', 'break', 'class', 'continue', 'def', 'del', 'elif', 'else', 'except', 'finally', 'for', 'from', 'global', 'if', 'import', 'in', 'i

haoyumeng

2020-07-13

34.9861 4 2
  • 关注作者
  • 收藏

概率统计分布有哪些?

概率统计分布 1、两点分布、二项分布——记得表白问题 2、正态分布:那是一个神奇的分布(任何分布、任何统计量,随着其自由度或样本量的增大,其最终都服从正态分布)——正态分布是所有分布的终极形态 3、标准正态分布:概率计算用到“分布函数”,计算某个点左边的面积,要求会查表 4、卡方分布:是相互独立的标准正态分布的平方和 5、t分布:t分布实际上是z分布小时候的样子(矮一点,胖一点),自由度n就是他的

haoyumeng

2020-07-11

24.3827 3 2
  • 关注作者
  • 收藏

假设检验的几个基本步骤

提出假设 原假设:研究者想推翻,但不容易推翻的——旧的、稳定的、普遍的(不能说好坏,不能有个人偏好,要站在研究者的角度思考问题) 备择假设:研究者想支持,但不容易支持的——新的、不稳定的、个别的(不能说好坏,不能有个人偏好,要站在研究者的角度思考问题) 等号要放在原假设 确定检验统计量 同参数估计 规定显著性水平a 拒绝域的面积 计算统计量的值 把待检验的值代入计算 决策 a临界值

haoyumeng

2020-07-11

24.3827 3 2
  • 关注作者
  • 收藏

powerBI表间关系运用

1. 哪种对应关系在业务工作中几乎见不到一对一主键对主键 类型一2. 哪种对应关系可以遇到但是不能使用多对多非主键对非主键 类型二类型一都是错的,会翻倍,尽量避开3. 哪种对应关系是连接时应该使用的连接关系一对多的关系,主键对非主键,多表的连续性变量做度量

haoyumeng

2020-07-09

18.4101 2 1
  • 关注作者
  • 收藏

各常用数据库简单介绍

MySQL:开源,体积小,速度快,中小型企业Oracle:稳定,可移植性高,功能齐全,性能好,大型企业DB2:速度快,可靠性好,恢复性强,海量数据,中大型企业SQL Server:全面高效,界面友好,Windows自研不跨平台,中小型企业

haoyumeng

2020-07-09

18.4465 3 6
  • 关注作者
  • 收藏

相关分析如何描述

相关分析 通常用散点图,最大的特点是“散”定量变量对定量变量的影响从两个角度进行分析: 相关关系的描述——有没有关系? 相关关系的度量——有多大关系?可根据以下几个特点来描述关系:涉及变量的数量来看简单相关,多重相关变量相关关系的变现形式看 线性——接近直线,非线性——曲线变量相关关系变化的方向看 正相关——变量同方向变化,同增同减 负相关——变量反方向变化,一

haoyumeng

2020-07-09

18.4101 2 2
  • 关注作者
  • 收藏

z分布、t分布、F分布及χ^2分布

Z是正态分布,X^2分布是一个正态分布的平方,t分布是一个正态分布除以(一个X^2分布除以它的自由度然后开根号),F分布是两个卡方分布分布除以他们各自的自由度再相除比如X是一个Z分布,Y(n)=X1^2+X2^2+……+Xn^2,这里每个Xn都是一个Z分布,t(n)=X/根号(Y/n),F(m,n)=(Y1/m)/(Y2/N)各个分布的应用如下:方差已知情况下求均值是Z检验。方差未知求均值是t检验

haoyumeng

2020-07-07

19.6412 6 3
  • 关注作者
  • 收藏

常用估计方法

若服从正态分布N(u,a^2)——经验法则例子:平均分80分,标准差10分(满分120)说明:68.26%的成绩在70-90分之间 95.44%在60-100分之间 99.74%在50-110之间对任意分布,至少有1-1/k^2落在u+-ka范围内(K>1)——切比雪夫不等式例子:平均分80分,标准差10分(满分120)说

haoyumeng

2020-07-07

19.6355 5 3
  • 关注作者
  • 收藏