Zxmzxm11

2020-07-31   阅读量: 2346

数据分析师 大数据 统计学

数理统计的一些总结

扫码加入数据分析学习群



本篇目录


统计学是一门收集、处理、分析、解释数据并从中得出结论的科学。

一、基本符号表

符号含义
X总体(随机变量,可带分布)
Xi样本(随机变量,可带分布,可组成统计量)
xi样本实际观测值(实数)
μ总体均值
π总体比例
σ总体标准差
σ2总体方差
X样本均值(统计量,可带分布)
P样本比例(统计量,可带分布)
S样本标准差(统计量,可带分布)
S2样本方差(统计量,可带分布)
x样本均值(实数,根据样本集计算而来)
p样本比例(实数,根据样本集计算而来)
s样本标准差(实数,根据样本集计算而来)
s2样本方差 (实数,根据样本集计算而来)
Mo众数
Me中位数
QL下四分位数
QU上四分位数
x算术平均数
H调和平均数
G集合平均数
R极差
Md平均差
Vs变异系数
Sk偏态系数
K峰态系数

二、数据的分类

在这里插入图片描述

  1. 区间(分组的数值型数据)仍属于数值型

  2. 不同类型数据之间往往可以进行转换(高级→低级,反之不行)

  3. 低级数据的方法高级数据可以用,但高级数据的方法低级数据不可以用

三、统计方法之 描述性分析方法

在这里插入图片描述

四、统计方法之 推断性分析方法

I、各类分布

1. 0-1分布

在这里插入图片描述

2. 二项分布

在这里插入图片描述

3. 正态分布
4. 标准正态分布
5. 卡方分布

在这里插入图片描述

6. t分布

在这里插入图片描述

7. F分布

在这里插入图片描述

8. 各分布的联系
箭头代表“可变换成”

在这里插入图片描述

9. 分布函数与分位点的联系

在这里插入图片描述

II、估计

1. 选定欲估计的总体参数

在这里插入图片描述

2. 选定总体参数对应的样本统计量

其实此处的x,π,s2都应该大写,因为它们代表的是实际样本计算值,而非样本统计量。

在这里插入图片描述

3. 确定统计量的抽样分布

在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述

4. 利用统计量的分布和实际样本集数据来对总体参数进行点估计或区间估计操作

点估计方法(估计总体参数的具体值):矩估计法、最大似然法和顺序估计量估计法。

在这里插入图片描述在这里插入图片描述
在这里插入图片描述

区间估计方法(估计总体参数的出现区间):置信水平(1−α)一般取90%、95%和99%。
在这里插入图片描述在这里插入图片描述在这里插入图片描述

III、假设检验

1. 选择某总体参数并对其提出假设

在这里插入图片描述在这里插入图片描述在这里插入图片描述

2. 根据总体参数确定对应的检验统计量

在这里插入图片描述在这里插入图片描述

3. 规定显著性水平值

一般取值为0.01,0.05,0.1

4. 确定检验统计量的抽样分布,并据此计算检验统计量的实际样本值

在这里插入图片描述在这里插入图片描述
在这里插入图片描述

5. 根据原假设来判断拒绝域的位置,并利用实际样本值是否落在拒绝域(具体值查表即可)进行决策

α临界值法:
在这里插入图片描述在这里插入图片描述在这里插入图片描述
P值法:
在这里插入图片描述在这里插入图片描述

置信区间法:无

IV. 列联分析

本质是对每个总体的比例参数是否相等进行假设检验,因此下面的每一步都可以和假设检验步骤进行对应。

1. 提出对总体比例参数的假设(一般为双侧检验)

在这里插入图片描述

2. 构造边缘分布表

在这里插入图片描述

3. 计算期望频数

在这里插入图片描述

4. 构造总体比例对应的统计量的卡方分布,并计算统计量的实际样本值

在这里插入图片描述

5. 根据拒绝域(右侧检验)来得出结论

一般默认显著性水平α为0.05,若χ2<χα2(自由度),则接受原假设,否则拒绝。

7.列联分析步骤五的改进

为了填补由于样本量的不同而影响决策结果的缺陷,因此根据ϕ相关系数来得出结论。其中样本总量n指的是边缘分布表总频数。
在这里插入图片描述
在这里插入图片描述

8. 列联分析的拓展应用

在这里插入图片描述

V. 方差分析

1. 提出对总体均值参数假设(一般为双侧检验)

在这里插入图片描述

2. 分析差异

在这里插入图片描述

3. 计算均方(SSE和SSA)

在这里插入图片描述
在这里插入图片描述

4. 构造总体均值对应的统计量的F分布,并计算样本统计量值F=MSA/MSE

在这里插入图片描述
其中,k代表的是组的个数,n代表的是总样本数。

5. 根据规定的显著性水平和F分布的自由度确定拒绝域(右侧检验)查临界值,并决策

VI. 相关分析

研究的是有没有关系,关系有多大的问题。
在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述

VII. 回归分析

研究的是关系是什么,因此在做对关系进行分析的研究中,需要先使用相关分析判断有没有关系,再考虑使用回归分析。
在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述


添加CDA认证专家【维克多阿涛】,微信号:【cdashijiazhuang】,提供数据分析指导及CDA考试秘籍。已助千人通过CDA数字化人才认证。欢迎交流,共同成长!
39.8670 2 0 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子