数据科学专业问答社区，好文章，一字千金--CDA答疑社区

几种机器学习方法

监督学习又称有导师学习，导师提供对错，目的是获得泛化能力常用方法：决策树常用场景：垃圾邮件分类，声音图像处理，股票预测无监督学习自学，不限于解决有正确答案的问题，目标无需明确常用方法：聚类学习常用场景：卫星故障诊断，视频分析，数据可视化半监督学习部分被标识，部分没有标识步骤：对10000有标签的数据进行建模对100000个无标签的进行预测对10000+50000的训练集建立模型（假设有50000的

haoyumeng

2020-08-04

35.0103 3 1

回归平方和 ESS，残差平方和 RSS，总体平方和 TSS

回归平方和 ESS，残差平方和 RSS，总体平方和 TSS 总变差（TSS）：被解释变量Y的观测值与其平均值的离差平方和（总平方和）(说明 Y 的总变动程度）解释了的变差（ESS）：被解释变量Y的估计值与其平均值的离差平方和（回归平方和）剩余平方和（RSS）：被解释变量观测值与估计值之差的平方和（未解释的平方和）他们的关系是TSS=RSS+

haoyumeng

2020-08-03

45.5756 4 2

最小二乘法

最小二乘法 Method of Ordinary Least Squares 原理：构造合适的估计量，使得残差平方和（Residual Sum of Squares, RSS）最小。 Sum(ui^2) = Sum{(Yi - B1 - B2Xi)^2} 然后，RSS对B1和B2求偏导数。令一阶偏导为0，代入得B1、B2

haoyumeng

2020-08-03

45.5756 4 5

过拟合和欠拟合

过拟合：模型对训练集中的数据模拟的太好了，原因一般在于训练数据量小，模型过于复杂，特征维度过多，参数过多，噪声过多，连训练集中的噪声都能完美预测，这样的模型放在测试集中表现就不好了，泛化能力差。一般用正则化降低参数值，减少特征维度来解决过拟合的问题。解决方法：从数据源头获取更多的数据，数据增强使用合适的模型，减少网络层数，神经元个数，限制网络的拟合能力dropout正则化，在训练师限制权值变大数据

haoyumeng

2020-07-29

28.2525 2 2

unique和nunique的区别

unique():以数组形式返回列的所有的唯一值，即特征的所有唯一值nunique():返回唯一值的个数

haoyumeng

2020-07-27

31.5186 5 1

type/dtype/astype的区别

type 获取数据类型，list,dict,numpy,ndarraydtype 数组元素的类型，不能在list和dic里用astype 修改数据类型，能用dtype才能用astype

haoyumeng

2020-07-23

35.7975 2 4

pandas提取数据信息的一些方法

一个例子：一下是一些股票代码和股票名称,300783 三只松鼠601236 红塔证券603256 宏和科技601698 中国卫通603867 新化股份600968 海油发展300594 朗进科技603863 松炀资源603217 元利科技将这列数据创建成一个 Series,股票名称作为索引,股票代码是数据.data = [300783,601236,603256,601698 ,603867,60

haoyumeng

2020-07-21

40.1654 3 2

常用数组

全0阵np.zeros((3, 5), dtype=int) （形状，数据类型）全1阵np.ones((3, 3, 3), dtype="int32") （形状，数据类型）单位阵np.eye(3, dtype=int) （行列数，数据类型）对角阵np.diag([1, 5, 300, 444, 44, 666, 77]) 对角的数值设置具体的值阵np.

haoyumeng

2020-07-20

27.6626 3 2

Python_write和writelines的区别

1 write()需要传入一个字符串做为参数,否则会报错2 writelines()既可以传入字符串又可以传入一个字符序列,并将该字符序列写入文件注意：writelines必须传入的是字符序列,不能是数字序列如：list_1023 = [1,2,3,4,5]报错:TypeError: write() argument must be str, not list

haoyumeng

2020-07-16

19.8542 1 1

jupyter notebook 添加目录

打开Anaconda Promt输入pip install jupyter_contrib_nbextensions然后回车运行，来安装jupyter_contrib_nbextensions模块。中途会出来y/n的选项，输入y,然后回车，直到出现Successfully installed标志。继续输入jupyter contrib nbextension install --user然后回车，

haoyumeng

2020-07-15

13.6359 4 1

break和continue的使用和区别

break:中途退出，结束整个循环name = '我想要去打游戏,不想学习'for x in name: if x == ',': break print(x)我想要去打游戏continue:结束当前循环，进入下一循环name = '我想要去打游戏,不想学习'for x in name: if x == ',': continue pri

haoyumeng

2020-07-14

13.6014 2 0

字符串的格式化-用format填充字符串的三种方式

1、当大括号里面为空时, 后面的参数值按照顺序依次填充web = '{}.{}.{}' x = 'map'y = 'baidu'z = 'qq'web.format(x,y,z)OUT : 'map.baidu.qq'2、当大括号中使用数字时，将字符串填充到对应数字的大括号中web='{2}.{1}.{0}'x='map'y='baidu'z='qq'web.format(x,y,z)OUT :

haoyumeng

2020-07-13

34.9110 2 2

python内部保留关键字，不可做变量名：

python内部保留关键字，不可做变量名：['False', 'None', 'True', 'and', 'as', 'assert', 'break', 'class', 'continue', 'def', 'del', 'elif', 'else', 'except', 'finally', 'for', 'from', 'global', 'if', 'import', 'in', 'i

haoyumeng

2020-07-13

34.9861 4 2

概率统计分布有哪些？

概率统计分布 1、两点分布、二项分布——记得表白问题 2、正态分布：那是一个神奇的分布（任何分布、任何统计量，随着其自由度或样本量的增大，其最终都服从正态分布）——正态分布是所有分布的终极形态 3、标准正态分布：概率计算用到“分布函数”，计算某个点左边的面积，要求会查表 4、卡方分布：是相互独立的标准正态分布的平方和 5、t分布：t分布实际上是z分布小时候的样子（矮一点，胖一点），自由度n就是他的

haoyumeng

2020-07-11

24.3827 3 2

假设检验的几个基本步骤

提出假设原假设：研究者想推翻，但不容易推翻的——旧的、稳定的、普遍的（不能说好坏，不能有个人偏好，要站在研究者的角度思考问题）备择假设：研究者想支持，但不容易支持的——新的、不稳定的、个别的（不能说好坏，不能有个人偏好，要站在研究者的角度思考问题）等号要放在原假设确定检验统计量同参数估计规定显著性水平a 拒绝域的面积计算统计量的值把待检验的值代入计算决策 a临界值

haoyumeng

2020-07-11

24.3827 3 2

powerBI表间关系运用

1. 哪种对应关系在业务工作中几乎见不到一对一主键对主键类型一2. 哪种对应关系可以遇到但是不能使用多对多非主键对非主键类型二类型一都是错的，会翻倍，尽量避开3. 哪种对应关系是连接时应该使用的连接关系一对多的关系，主键对非主键，多表的连续性变量做度量

haoyumeng

2020-07-09

18.4101 2 1

各常用数据库简单介绍

MySQL：开源，体积小，速度快，中小型企业Oracle：稳定，可移植性高，功能齐全，性能好，大型企业DB2：速度快，可靠性好，恢复性强，海量数据，中大型企业SQL Server：全面高效，界面友好，Windows自研不跨平台，中小型企业

haoyumeng

2020-07-09

18.4465 3 6

z分布、t分布、F分布及χ^2分布

Z是正态分布，X^2分布是一个正态分布的平方，t分布是一个正态分布除以（一个X^2分布除以它的自由度然后开根号），F分布是两个卡方分布分布除以他们各自的自由度再相除比如X是一个Z分布，Y(n)=X1^2+X2^2+……+Xn^2,这里每个Xn都是一个Z分布，t(n)=X/根号(Y/n),F（m,n）=(Y1/m)/(Y2/N)各个分布的应用如下：方差已知情况下求均值是Z检验。方差未知求均值是t检验

haoyumeng

2020-07-07

19.6412 6 3

常用估计方法

若服从正态分布N(u,a^2)——经验法则例子：平均分80分，标准差10分（满分120）说明：68.26%的成绩在70-90分之间 95.44%在60-100分之间 99.74%在50-110之间对任意分布，至少有1-1/k^2落在u+-ka范围内（K>1）——切比雪夫不等式例子：平均分80分，标准差10分（满分120）说

haoyumeng

2020-07-07

19.6355 5 3