18192654262

如何判断是不是几何分布?

如何判断是不是几何分布?只要符合下面4个特点就可以判别你做的事情是不是几何分布了:1)做某事件次数(也叫试验次数)是固定的,用n表示(例如抛硬币3次,表白5次),2)每一次事件都有两个可能的结果(成功,或者失败)(例如每一次抛硬币有2个结果:正面表示成功,反面表示失败。每一次表白有2个结果:表白成功,表白失败)。3)每一次“成功”的概率都是相等的,成功的概率用p表示(例如每一次抛硬币正面朝上的概率

41.4092 3 0
  • 关注作者
  • 收藏
18192654262

什么是二项分布呢?

什么是二项分布呢?只要符合下面3个特点就可以判断某事件是二项分布了:1)做某件事的次数(也叫试验次数)是固定的,用n表示。(例如抛硬币3次,投资5支股票),2)每一次事件都有两个可能的结果(成功,或者失败)(例如每一次抛硬币有2个结果:正面表示成功,反面表示失败。每一次投资美股有2个结果:投资成功,投资失败)。3)每一次成功的概率都是相等的,成功的概率用p表示(例如每一次抛硬币正面朝上的概率都是1

41.2855 2 0
  • 关注作者
  • 收藏
宋俊花

逻辑回归为什么要对特征进行离散化

在工业界,很少直接将连续值作为逻辑回归模型的特征输入,而是将连续特征离散化为一系列0、1特征交给逻辑回归模型,这样做的优势有以下几点:0. 离散特征的增加和减少都很容易,易于模型的快速迭代;1. 稀疏向量内积乘法运算速度快,计算结果方便存储,容易扩展;2. 离散化后的特征对异常数据有很强的鲁棒性:比如一个特征是年龄>30是1,否则0。如果特征没有离散化,一个异常数据“年龄300岁”会给模型造成很大

40.3583 2 0
  • 关注作者
  • 收藏
读童话的狼

如何解决线性模型变量相关性问题的讨论

首先要明确一点:变量之间的相关性(只要不是完全相关)是不会影响参数的一致性的。那么会影响什么呢?影响的是参数估计的方差。所以,如果你的样本足够大,变量间的相关性不是什么大问题,甚至压根就不是问题。那么如果你的样本没那么大,该怎么处理呢?这个时候就要看你做模型的目的了。简单的区分的话,你究竟关注相关,还是因果,甚至只是想预测?如果你是关注因果,那么不好意思,这个问题没有办法。比如如果在经济学里面,你

41.4359 2 0
  • 关注作者
  • 收藏
宋俊花

方差分析和回归分析 异同

方差分析和回归分析总体上都属于一个类别,一般线性模型(general linear model,GLM)。从数据类型来看,方差分析的因变量是连续型数据,自变量是分类变量,一般都以组别的形式出现。回归分析的因变量是连续型数据,自变量既可以是分类数据,也可以是连续型数据,也可以两种都有。具体来说:一、方差分析与回归分析的相同点1、方差分析与回归分析的变量都是两种或两种以上。2、方差分析与回归分析的结果

35.3721 2 0
  • 关注作者
  • 收藏
宋俊花

标准差与标准误

共同点标准差和标准误都在衡量一群“小点点”的变异程度/离散程度。不同点标准差(SD)的“小点点”是仅仅某一次抽样得到的一个「样本量为N」的样本里的所有个体(单个分数)标准误(SE)的“小点点”是很多次抽样得到的很多「样本量均为N」的样本(样本的某种统计量,如平均值、回归系数等)一言以蔽之(以平均值为例,这是最简单的理解)标准差 = 一次抽样中个体分数间的离散程度,反映了个体分数对样本均值的代表性,

35.3721 2 0
  • 关注作者
  • 收藏
叶yyf

推断性分析方法

列联分析——分析定性变量对定性变量的影响原理:比较实际值与期望值(如何计算?)之间的差距,构造了卡方统计量,进行决策作用:通过比较实际值与期望值之间是否存在差异,分析定性变量对另一个定性变量是否有显著影响。——拟合优度检验、独立性检验、......几个系数——消除n的影响方差分析——分析定性变量对定量变量的影响原理:比较组间误差(存在随机误差+可能有因素A的影响)与组内误差(只有随机误差)

35.3721 2 0
  • 关注作者
  • 收藏
LXM21

定比和定距的区别

1.定距数据(Interval):具有间距特征的变量,有单位,没有绝对零点,可以做加减运算,不能做乘除运算。例如,温度。2.定比变量(Ratio):数据的最高级,既有测量单位,也有绝对零点,例如职工人数,身高。

44.8761 3 0
  • 关注作者
  • 收藏
LXM21

评估系数

这个评估系数是之前统计学的,置信区间要求是95%,得到的5%吗?跟P值是一个意思嘛答:不一样,意思是显著性水平α=5%,就是α=0.05,跟相应的P值比较看结果是否显著

44.6016 2 0
  • 关注作者
  • 收藏
宋俊花

回归算法选择汇总

基于x,y 变量类型以及多少的时候,应该选择哪种回归模型和算法:

126.7985 6 0
  • 关注作者
  • 收藏
liting李

一般正态分布与标准正态分布的区别与联系

正态分布也叫常态分布,是连续随机变量概率分布的一种,自然界、人类社会、心理和教育中大量现象均按正态形式分布,例如能力的高低,学生成绩的好坏等都属于正态分布。它随随机变量的平均数、标准差的大小与单位不同而有不同的分布形态。标准正态分布是正态分布的一种,其平均数和标准差都是固定的,平均数为0,标准差为1。

48.4274 6 0
  • 关注作者
  • 收藏
1027670370

统计是什么?

统计是处理数据的一门科学。人们给统计学下的定义很多,比如,“统计学是收集、分析、表述和解释数据的科学”;“统计是一组方法,用来设计实验、获得数据,然后在这些数据的基础上组织、概括、演示、分析、解释和得出结论”。综合地说,统计学(statistics)是收集、处理、分析、解释数据并从数据中得出结论的科学。统计学是关于数据的科学,它所提供的是一套有关数据收集、处理、分析、解释并从数据中得出结论的方法,

38.1193 6 0
  • 关注作者
  • 收藏
zhongxn

卡方分箱

分箱的原因:1、模型稳定:在一般情况下建立分类模型是,需要对连续变量进行离散化,离散后的特征能够去除噪声,对异常值不再敏感,使得模型可以更加的稳定。2、简化模型:降低样本中的个别信息对模型的影响,降低过拟合的风险。分箱的目的:1、离散特征的增加和减少很容易,易于模型的快速迭代。2、稀疏向量内积乘法运算速度快,计算结果方便存储,容易扩展。3、列表内容离散化后的特征对异常数据有很强的鲁棒性。【离散化后

37.4817 3 0
  • 关注作者
  • 收藏
zhongxn

卡方分箱

分箱的原因:1、模型稳定:在一般情况下建立分类模型是,需要对连续变量进行离散化,离散后的特征能够去除噪声,对异常值不再敏感,使得模型可以更加的稳定。2、简化模型:降低样本中的个别信息对模型的影响,降低过拟合的风险。分箱的目的:1、离散特征的增加和减少很容易,易于模型的快速迭代。2、稀疏向量内积乘法运算速度快,计算结果方便存储,容易扩展。3、列表内容离散化后的特征对异常数据有很强的鲁棒性。【离散化后

37.4817 3 0
  • 关注作者
  • 收藏
liting李

为什么要对相关系数进行显著性检验?

原因:所有的假设检验都是要分析显著性的,拿相关系数来说,我们虽然求得了相关系数值,但是这个相关系数有没有统计学意义呢?换句话说,我们看到的这个相关系数是确实存在呢?还是说只是抽样误差导致的?显著性检验就是要解决这个问题的,如果显著,则表明相关的确存在,不是抽样误差导致的。

37.5676 4 0
  • 关注作者
  • 收藏
k_0711

分支语句

分支语句顾名思义,就是像岔路口一样,选择不同的路就会有不尽相同的结果,分支语句体现一种选择的思维。分支语句的语法如下:单分支:if(条件1):语句块如果条件1为真则执行语句块,否则不执行语句块。二分支:if(条件):语句块1else:语句块2这个表示若条件为真执行语句块1,否则执行语句块2或者:(表达式1) if (条件) else (表达式2)这个是更为简洁的二分之表达方式,若第二个括号中的条件

41.2325 2 0
  • 关注作者
  • 收藏
1027670370

统计数据的整理

一、统计数据整理 统计数据整理是统计数据调查的继续和数据分析的前提,是感性认识上升到理性认识的连接点。数据整理的前提是审核,分组汇总是核心。按品质变量分组的关键是界定各类型组的性质差异,按数值变量分组的关键是正确确定各组的数量界限,即组数与组限。二、统计分组 统计分组必须遵循穷尽性和互斥性两个原则。数值变量分组有单项式和组距式两种。组距式分组又有离散型与连

41.4053 6 0
  • 关注作者
  • 收藏
liting李

在统计学中为什么要对变量取对数?

取对数可以将大于中位数的值按一定比例缩小,从而形成正态分布的数据。1.研究的自变量数量级不一致时,取对数可消除这种数量级相差很大的情况。2.取对数可以消除异方差。3.取对数可以使非线性的变量关系转化为线性关系,更方便做参数估计。

41.2902 3 0
  • 关注作者
  • 收藏
michelle.qin

Python统计学 - 错题收集

需要找一下资料回顾一下

29.9467 1 0
  • 关注作者
  • 收藏
1027670370

分配数列

(一)概念 在统计分组的基础上,可以将总体的所有单位按某一标志进行归类排列,并计算其相应出现的次数,这样得到的分布称为分配数列或次(频)数分布数列。(二)分配数列的构成要素 组别:各组名称 次数(频数):分布在各组的总体单位数。各组的次数(频数)之和等于总体单位总数。 频率(比重):各组次数占总次数的比重各组比重之和等于100%(或1

29.9993 4 0
  • 关注作者
  • 收藏
12349>

热门用户 换一批

本月PGC排行 换一批

01
ermutuxia
15619.8283
02
詹惠儿
3994.1802
03
liting李
3878.1320
04
开花结果02
2828.8315
05
LXM21
2466.5649
06
shauna570392
1925.8413
07
s1223452840
1693.2503
08
赵娜0418
1467.4869
09
读童话的狼
1240.7391
10
18192654262
596.2669
11
宋俊花
417.7947
12
bigdata~
416.5680
13
wangxishi
410.9150
14
隋东芝
389.3198
15
马锦涛
378.6177
16
你应该是一阵风丫
362.0340
17
永洪科技
326.7076
18
zhxiaol
322.0296
19
我是大魔王哈哈
307.7717
20
85691082
291.5308
21
梁程晴
244.7252
22
东方祥
237.4341
23
PanHero_龙宝宝
231.9958
24
陈yy123
222.3672
25
曹翔888
193.1606
26
gracejpw1117
174.8793
27
1530553748
167.2216
28
Zxmzxm11
165.2367
29
ALEXSONG_JY
162.4142
30
-黄纬
155.5404
31
WXlJ1l5
151.5480
32
叶yyf
150.4722
33
13285917268
118.0985
34
田先生1
109.0227
35
admin
101.5527
36
k_0711
100.6867
37
hunter.Z
100.4091
38
fuli2020
97.3386
39
M15828292569
72.9557
40
cda讲师号
72.8814
41
PGC123
72.3793
42
小朱520
63.2051
43
aralexu
62.1749
44
觉得是快乐
53.9994
45
291294878
43.9832
46
jojogigi
42.2674
47
liujie01-09
42.1503
48
zzfcda
41.2856
49
姚慧扬
40.3583
50
Zzyh12
39.8657