统计学-数据科学专业问答社区-CDA答疑社区

CDA数据科学研究院 CDA考试中心 CDA网校企业服务

CDA社区

CDA竞赛 CDA技术答疑 CDA俱乐部

关于CDA APP下载

免密码登录

提交首次登录验证后自动注册

展开 +

啊啊啊啊啊吖

Python里面怎么做标准化呀

所有中心倾向的度量都是同一单位。极差的单位也与此相同。但是，方差的单位是原数据单位的平方（即“平方朋友”）。然而，用方差很难给出直观的比较，所以我们更常使用标准差（standard deviation）：def standard_deviation(x):return math.sqrt(variance(x))standard_deviation(num_friends) # 9

0.0000 0 2

啊啊啊啊啊吖

怎么用Python计算方差

def de_mean(x):"""translate x by subtracting its mean (so the result has mean 0)"""x_bar = mean(x)return [x_i - x_bar for x_i in x]def variance(x):"""assumes x has at least two elements"""n = le

0.0000 0 1

啊啊啊啊啊吖

中位数

中位数的一个泛化概念是分位数（quantile），它表示少于数据中特定百分比的一个值。（中位数表示少于 50% 的数据的一个值。 )def quantile(x, p):"""returns the pth-percentile value in x"""p_index = int(p * len(x))return sorted(x)[p_index]quantile(num_fr

0.0000 0 2

啊啊啊啊啊吖

Python实现描述性统计-均值

常用的方法是使用均值（mean 或average），即用数据和除以数据个数：# 如果没有从__future__导入division，那就是不对的def mean(x):return sum(x) / len(x)mean(num_friends) # 7.333333如果你有两个数据点，均值就意味着两点的中间点。随着数据集中点数的增加，均值点会移动，但它始终取决于每个点的取值。我

0.0000 0 1

简述什么是离散随机变量？

离散随机变量离散随机变量被定义为将样本空间映射到一组离散实数值的函数。其中X是随机变量，S是样本空间， rmR是实数集。就像任何其他函数一样，X接受一个值并根据为其定义的规则计算结果。更详细地说明，如果X是为具有样本空间S的特定随机实验定义的随机变量，则X=c表示包含所有可能结果的事件E 在ei\在S中那个注意：随机变量也可以采用非样本中的值。不在示例空间中的所有值都映射到

0.0000 0 4

贝叶斯及条件规则

条件概率顾名思义的条件概率在特定事件的发生概率在满足一个或多个条件时变化时发挥作用（这些条件再次是事件）。用技术术语来说，如果X和Y是两个事件，那么X wrt Y的条件概率用表示。因此，当我们以条件概率的方式进行讨论时，仅作为一个例子，我们做出一个声明，如“给定Y已经发生的事件X的概率”。如果X和Y是独立事件怎么办？根据独立事件的定义，事件X的发生不依赖于事件Y.因此，

0.0000 0 3

基本概率规则和模型

概率提供有关事件发生可能性的信息。深入研究概率的术语：试验或实验：导致某种可能性结果的行为。样本空间：实验的所有可能结果的集合。事件：样本空间的非空子集称为事件。因此，在技术术语中，概率是衡量事件进行实验的可能性的指标。基本概率计算根据定义，如果A是实验的事件并且它包含n个结果而S是样本空间那么，因此，概率值介于0和1之间。由于样本空间是整个可

0.0000 0 4

Logistic回归的算法原理

众所周知，Logistic回归假设依赖（或响应）变量遵循二项分布。现在，您可能想知道，什么是二项分布？可以通过以下特征来认识下二项分布：必须有由n表示的固定数量的试验，即在数据集中，必须有固定数量的行。每次试验只能有两个结果; 即，响应变量只能有两个唯一的类别。每次试验的结果必须相互独立; 即，响应变量的唯一级别必须彼此独立。每次试验的成功概率（p）和失败（q）应该相同。让我们了解

0.0000 0 0

抽样的多种组织形式

1.简单随机抽样（simple random sampling, srs）的定义是：任何样本数为n的样本组合中选的机率都是相等的。2.等距抽样（systematic sampling）也有人称它为系统抽样。是先把全体总数N除以样本数n，得到K，也就是每间隔K个抽一个，再用随机数表自1到K选一个随机数R，则R，R＋K，R＋2K，......，R＋（n－1）K等号码中选。3.分层随机抽样（stra

0.0000 0 6

点估计和区间估计

用样本平均数来估计总体的平均数称为点估计。点估计命中目标的机会是极低的，因为只凭着少数样本观察值得到的结果要和全体的平均数吻合几乎是不可能的事，所以我们最除了点估计，还要用区间估计。根据中央极限定理和正态分布的特性我们知道这个区间包含着全体平均数μ的机会有68%（为了简洁表达，我们后文省去“约”），的机会有95%，而的机会有99.7%！真正可靠的估计势必要用区间估计，只有这样做我们才可以

0.0000 0 2

什么是玫瑰图？

玫瑰图又称为南丁格尔玫瑰图。南丁格尔（Floarence Nightinggale），英国护士和统计学家。1883年，南丁格尔撰写影响英国军队健康，效率和医院管理的资料中，她创造了一个非凡的原创图形展示方式，这张图显示了人们在1854年7月至次年年底期间死亡的情况。南丁格尔玫瑰图类似于饼图的变形，它可以用转角、扇形面积、以及颜色展现数据的不同维度。

0.0000 0 0

什么是偏度？

偏度用来刻画偏态的程度。偏态有两种情况：一种是如图所示（左边）的左偏，该变量在负的方向部分严重拖尾；另一种是如图所示（右边）的右偏，在正的方向部分严重拖尾。在实际经济和商业数据分析中，右偏是比较普遍的状态。比如，地区的居民收入、客户购买产品的数量、金额和保险理赔额。

0.0000 0 3

啊啊啊啊啊吖

Python里的矩阵

矩阵是一个二维的数据集合。我们将矩阵表示为列表的列表，每个内部列表的大小都一样，表示矩阵的一行。如果 A 是一个矩阵，那么 A[i][j] 就表示第 i 行第 j 列的元素。按照数学表达的惯例，我们通常用大写字母表示矩阵。例如：A = [[1, 2, 3], # A有2行3列[4, 5, 6]]B = [[1, 2], # B有3行2列[3, 4],[5, 6]]在数学中，矩阵的

0.0000 0 1

啊啊啊啊啊吖

逻辑回归的Python实现

需要：sigmoid函数、模型主体、参数初始化、基于梯度下降的参数更新训练、数据测试与可视化展示。先定义一个 sigmoid 函数：import numpy as npdef sigmoid(x): z = 1 / (1 + np.exp(-x)) return z定义模型参数初始化函数：def initialize_params(dims):

0.0000 0 3

啊啊啊啊啊吖

garch模型添加约束的问题

想要在garch模型中添加像 alpha1=2alpha2 这样的约束：遇到一个garch模型的误差回归为 h(t)=alpha0 alpha1(0.4e^2(t-1) 0.3e^2(t-2) 0.2e^2(t-3) 0.1e^2(t-4)) 所以想到的是做一个 h(t)=alpha0 alpha1e^2(t-1) alpha2e^2(t-2) alpha3e^2(t-3) alpha4e

0.0000 0 2

浮世若离丶

方差和标准差的应用区别

方差和标准差都是对数据的离散度分析，请问在实际的应用中二者有什么区别？

0.0000 0 4

中心极限定理是什么？

一. 样本均值的采样分布统计学家不是使用个人分数，而是经常使用采样。也就是取几个样本，计算每个样本的平均值，然后将平均值用作数据，而不是使用单个分数。样本是样本均值的采样分布。当计算所有可能的样本均值时，则满足以下属性：样本平均值将是人口的平均值样本均值的方差是总体的方差除以样本大小。样本均值的标准偏差（称为均值的标准误差）将小于总体标准差，并且将等于总体的标准偏差除以样本大小的平方根。

0.0000 0 2

如何确定检验的类型？

假设检验主要分为单侧假设检验和双侧假设检验，其中单侧假设检验包括左尾和右侧假设检验检验类型由备择假设（H 1）确定 a左尾检验H 1：参数 cv，则拒绝H 0a双尾检验ħ 1：参数不等于值的另一种方式来写不等于

0.0000 0 0

如何理解相关分析？

定义：在相关分析是用于研究两个或多个变量之间的关系的密切程度的统计工具。当一个变量的运动伴随着另一个变量的运动时，这些变量被认为是相关的。想要确定变量之间的可能关联并开始时，使用相关性分析; 应遵循以下步骤：确定关系是否存在然后进行测量（相关度量称为相关系数）。测试其意义建立因果关系，如果有的话。在相关分析中，有两种类型的变量 - 依赖和独立。这种分析的目的是找出自变量的任何变化是否导

0.0000 0 1

啊啊啊啊啊吖

Brown-Mood检验

###Brown-Mood中位数检验（精确检验，正态近似，连续性修正后的正态近似）BM.test=function(x,y,alt) #alt:备择假设形式 { xy=c(x,y) md.xy=median(xy) t=sum(xy>md.xy) lx=length(x[x!=md.xy]) ly=length(y[y!=md.xy]) lxy=lx ly A=s

0.0000 0 3

<1…484950…55>

快速发帖我要提问

数据分析师求职、备考、笔试
刷题神器！

社区福利马上领

热门用户换一批

: 詹惠儿

: 赵娜0418

: shauna570392

: 啊啊啊啊啊吖

: liting李

: 读童话的狼

本月PGC排行

总奖励

01: CDA持证人阿涛哥; 480.0000

02: 85691082; 320.0000