ged_2357

2020-06-25   阅读量: 1228

统计学

统计

扫码加入数据分析学习群

一、统计学概述

1、 概念:

统计学是一门收集、处理、分析、解释数据并从中得出 结论的科学

2、核心:数据

统计学的对象是数据

3、统计学分析数据的方法

  1. 描述性分析方法
    总体规模、对比关系、集中趋势、离散程度、偏态、 峰态、......

  2. 推断性分析方法
    估计、假设检验、列联分析、方差分析、相关分析、 回归分析、......

4、基本概念

1. 数据的形式

数据的形式有两种:数字和文字

  • 数字: 严格的数学上的符号,可以进行比较、加减乘除等运算,常常用阿拉伯数字表示;

  • 文字: 不可运算,如男、女等。

  • 两者本质区别:是否可运算

Q1:阿拉伯数字一定是数字吗?

阿拉伯数字不一定是数字。 如:在处理数据时,我们有时候把男记作1、女记作0, 此时的1和0是数字吗?实际上,阿拉伯数字符号只是一个代替的符号而已,数字常可以用阿拉伯数字符号来表示。 有时候,阿拉伯数字符号也可以用来表示文字。

2、数据的分类

分类标准:计量尺度

  • 分类型数据(categorical data)

(1)定义:对事物进行分类的结果 例如:人口按性别分为男、女两类; 学校的专业分为经济学、会计学、统计学
(2)特点:数据表现为类别,用文字来表述

  • 顺序型数据(rank data)

(1)定义:对事物类别顺序的测度 例如:产品分为一等品、二等品、三等品、次品等。 (2)特点:数据表现为类别,用文字来表述

分类数据和顺序数据都需对事物进行分类,不同的是顺序数据的类别可以进行排序,因此, 顺序数据比分类数据级别高一些。有时候我们把这两类数据统称为定性数据。

  • 数值型数据(metric data)

(1)定义:对事物的精确测度 例如:身高为175cm、168cm、183cm,人的年龄18 岁等。 (2)特点:结果表现为具体的数字。

与定性数据对应的,有时候我们把数值型数据称为定量数据。

link

  1. 定距可以做加减,不能做乘除;如果该数值类型数据中0并不是表示没有,而是具有独有的含义,比如0摄氏度、公元0年,诸如此类的数值型数据划归为定距型数据

  2. 区间(分组的数值型数据)仍属于数值型

  3. 不同类型数据之间往往可以进行转换(高级→低级,反之不行)

  4. 低级数据的方法高级数据可以用,但高级数据的方法低级数据不可以用

数据的其他分类 - 按来源不同分:直接来源(一手数据、原始资料)、间接来源(二手数据、次级资料)- 收集方式不同分:观测的数据 实验的数据- 按与时间的关系不同:截面数据 时间序列数据 混合数据(面板数据)- 一种特殊的数据:虚拟变量数据

3、总体和样本

总体(population)

指研究的所有元素的集合。其中每个元素称为个体。

如:现研究全校学生的平均年龄 总体是:全校所有学生

【问题】实际中,总体的个体往往难于一一研究,如何解决? ——抽取样本

样本(sample)

从总体中抽取的一部分元素的集合

如:为研究全校学生的平均年龄,由于总体太大,而从中抽取100人进行研究,该研究中的样本是抽取的这100个学生。

构成样本的元素的数目称为样本容量。

4.参数和统计量

参数(parameter)——针对总体

指研究者想要了解的总体的某种特征值,
主要有总体均值()、标准差()、总体比例()等

统计量(statistic) ——针对样本

指根据样本数据计算出来的一个量,即样本的某个特 征值;
常见的统计量有样本均值(x)、样本标准差(s)、样本 比例(p)等。

利用样本的统计量推断总体的参数

5、变量

概念

指描述事物某种特征的概念,如商品销售额、受教育 程度、产品的质量等级等。

变量与数据的关系

变量的具体表现称为变量值,即数据。

变量的分类:

根据变量的数据计量尺度不同来分:

  • A.分类变量(categorical variable) :说明事物类别的一个名称

  • B.顺序变量(rank variable) :说明事物有序类别的一个名称

  • C.数值型变量(metric variable) :说明事物数字特征的一个名称

二、描述统计

1、总体规模的描述——总量指标

1、总量指标:
反映在一定时间.空间条件下某种现象的总体规模、总水平或总成果的统计指标。

2、分类

  • 按内容分:单位总量指标(人、物、…)、标志总量指标 (营业额、利润、…)

  • 按时间不同分:时期指标、时点指标

  • 按计量不同分:实物指标、价值指标、劳动量指标

2、对比关系的描述——相对指标

  1. 相对指标:又称“相对数”,是两个有相互联系的指标数值 之比。

  2. 常用相对指标的计算

  • 计划完成程度相对指标:实际完成/计划完成

  • 结构相对指标:部分/总体

  • 比例相对指标:一部分/另一部分

  • 比较相对指标:A的指标/B的相同指标

  • 强度相对指标:某总量指标/另一性质不同但关联的总量指标

  • 动态相对指标:报告期/基期

3、集中趋势的描述——平均指标

  • 定义:一组数据向其中心值靠拢的趋势

  • 测度集中趋势就是寻找数据水平的代表值或中心值

众数(mode)
  1. 定义:出现次数最多的变量值

  2. 表示的符号:

  3. 计算:寻找数据中出现次数最多的值。

  4. 众数的不唯一性:众数可以不存在,也可以是一个或多个

分位数
  1. 中位数(median)

  2. .四分位数(quartile)

数值型数据:均值(mean)
  1. 算术平均数

  2. 调和平均数(harmonic mean)

  3. 几何平均数(geometric mean)

  4. 幂平均数

4、离散程度的描述——变异指标

离散程度
  • 定义:反映各变量值远离其中心值的程度,是数据分布的另一个重要特征

  • 从另一个侧面说明了集中趋势测度值的代表程度

  1. 极差(range)

  2. 平均差(mean deviation)

  3. 方差和标准差差(variance and standard deviation)

  4. 相对离散程度:离散系数 (coefficient of variation)

5、分布形态的描述——偏态与峰态

偏态(skewness)
峰态(kurtosis)


添加CDA认证专家【维克多阿涛】,微信号:【cdashijiazhuang】,提供数据分析指导及CDA考试秘籍。已助千人通过CDA数字化人才认证。欢迎交流,共同成长!
38.3891 1 1 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子