统计学-数据科学专业问答社区-CDA答疑社区

CDA数据科学研究院 CDA考试中心 CDA网校企业服务

CDA社区

CDA竞赛 CDA技术答疑 CDA俱乐部

关于CDA APP下载

免密码登录

提交首次登录验证后自动注册

展开 +

数值型数据-平均数有哪些特点?

问：数值型数据-平均数有哪些特点?答：平均数的特点：1. 也称为均值2. 集中趋势的最常用测度值3. 一组数据的均衡点所在3. 体现了数据的必然性特征4. 易受极端值的影响5. 有简单平均数和加权平均数之分平均数的分类：简单平均数，加权平均数，几何平均数 Excel中求平均数：=AVERAGE(21,35,54,51,45,68,75,45,45,56,75,75,

0.0000 0 0

众数、中位数和平均数有哪些特点？

问：众数、中位数和平均数有哪些特点？答：众数、中位数、平均数的特点和应用： 1. 众数• 不受极端值影响• 具有不惟一性• 数据分布偏斜程度较大且有明显峰值时应用2. 中位数• 不受极端值影响• 数据分布偏斜程度较大时应用3. 平均数• 易受极端值影响• 数学性质优良• 数据对称分布或接近对称分布时应用

0.0000 0 1

分类数据-中位数有哪些特点?

问分类数据-中位数有哪些特点?答：众数(mode)主要有以下4个特点：1.排序后处于中间位置上的值 50%2. 不受极端值的影响（重要）3. 主要用于顺序数据，也可用数值型数据，但不能用于分类数据4. 各变量值与中位数的离差绝对值之和最小，即未分组数据计算中位数的步骤：1、排序2、确定中位数的位置 3、确定中位数的具体数值 Excel中

0.0000 0 5

分类数据-众数有哪些特点?

问：分类数据-众数有哪些特点?答：众数(mode)主要有以下6个特点：1. 一组数据中出现次数最多的变量值2. 适合于数据量较多时使用3. 不受极端值的影响4. 一组数据可能没有众数或有几个众数5. 主要用于分类数据，也可用于顺序数据和数值型数据6. 众数是一个位置代表值，不受数据中极端值的影响。案例：Excel中求众数：=MODE(21,35,54,51,45,68,75,4

0.0000 0 3

集中趋势的度量的中怎么将数据进行分类？

问：集中趋势的度量的中怎么将数据进行分类？答：集中趋势（Central tendency），是指一组数据向某一中心值靠拢的倾向，反映了一些数据中心点的所在。集中趋势是平均数或中位数或众数我们可以按照低层次数据到高层次数据去了解集中趋势的各个测度值。低层次数据是指定性数据，如性别，它的集中趋势只能是众数或中位数。高层次数据是定量数据，如身高，它的集中趋势是平均数。

0.0000 0 4

什么是多重共线性问题？如何解决？

问题描述：在做多元线性模型的时候，往往出现“多重共线性问题”，这是什么？如何解决呢？解决思路：“多重共线性”可以理解为x和x之间太相近了，从VIF方差膨胀因子的计算公式就可以看出来，去掉y，其它x对被检验的x的解释能力，如果VIF值太高，说明这个x就没有存在于这个模型里的意义VIF=1/(1-r2) ；当VIF大于10的时候，说明其余x对该x的解释力度达到了90%“多重共线性”问

0.0000 0 5

多水平变量可以重复做t检验吗？

问题描述：在学习t检验的时候，我们了解到某个分组变量如果只有两个水平，可以利用均值做显著性差异检验那么如果某个变量的水平超过了两组，例如三组，是否可以用两两组合的方法，去依次做t检验，从而说明因变量在自变量不同水平之间存在显著性差异呢？问题回答：不能的，因为每次检验都有误差，重复做t检验，会造成误差的指数型叠加，最后判断的结果误差会非常巨大这也就是为什么我们要做方差分析的原因，可以

0.0000 0 2

现实生活中，如何对问题的影响因素进行重要性排序？

问题描述：各种各样的统计模型，一定程度上能够探讨某个问题的因果关系，而一个问题的结果往往由多个原因造成的，那么这些原因中，哪些更重要？哪些不重要？如何对它们进行量化，从而抓住问题的主要矛盾，反哺业务呢？解决思路：多元线性回归模型的标准化回归系数，值越高说明对因变量的解释敏感度越强，对某个确定的结果是可以做重要性排序的因子分析或主成分分析的公因子方差贡献度，对于某个确定的概念，公因子的

0.0000 0 0

方差分析中方差不齐现象的解决策略？

当我们在做方差分析的时候，有三个前提条件，分别是：变量间相互独立正态性检验方差齐性检验面对方差不齐的模型，除了依赖修正的F值，我们还有哪些办法进行改善呢？方法一：对因变量（右偏曲线）取对数，可以让因变量更具备正态性的同时，减小因自变量异方差现象方法二：删除自变量中方差最大或最小的组别样本（要合理），换取整个模型的解释力度

18.7453 1 1

主成分分析和因子分析的区别？

主成分分析是因子分析的一个特例，因子分析是主成分分析的推广。因子分析与主成分分析的区别可以简单理解为：结构/模型 vs 线性组合要不要解释公因子-->目的在x还是y公因子数量自己定 vs 公因子数量等于自变量数量具体来说：因子分析的因子内容比主成分单纯，社会经济含义比较明确因子分析的研究者对原始数据的内部结构感兴趣，而主成分分析的研究者对原始变量间的线性组合感兴趣因子分析需

66.6535 1 1

什么时候比较适合用岭回归？

岭回归是加了二阶正则项的最小二乘，主要适用于过拟合严重或各变量之间存在多重共线性的时候，岭回归是有bias的，这里的bias是为了让variance更小。岭回归的回归参数有先验分布，而最小二乘对参数没有限制。对参数进行先验分布限制，会使得得到的回归参数取值不会很病态。因为最小二乘法会出现不稳定的情况，这种情况下会有过拟合，所以需要通过一个shrinkage即缩减解决过拟合问题。如果最小二

0.0000 0 0

岭回归和最小二乘法的区别是什么?

岭回归（Ridge Regression）在机器学习里就是一种改进的最小二乘。其本质是如果用传统的最小二乘，那么个别异常值可能对结果影响非常大（因为最小二乘法对异常值是非常敏感的）。所以用了这个改进的方法。引入正则系数可以消除异常值，优化模型。具体介绍如下：最小二乘：aaa最后一步成立的条件是 a 可逆，可逆的条件是满秩，如果不满秩我们就要处理一下：a

0.0000 0 3

泛化能力怎么理解？

1.什么是泛化能力？答：泛化能力(generalization ability)是指机器学习算法对新鲜样本的适应能力。学习的目的是学到隐含在数据对背后的规律，对具有同一规律的学习集以外的数据，经过训练的网络也能给出合适的输出，该能力称为泛化能力。在机器学习方法中，泛化能力通俗来讲就是指学习到的模型对未知数据的预测能力。在实际情况中，我们通常通过测试误差来评价学习方法的泛化能力2.泛化

0.0000 0 0

请问以下模型适合用什么软件做回归分析？回归分析的步骤是什么？

问：H1：X会增强Y；H2：M1在X和Y之间起中介作用；H3：M2在X和Y之间起中介作用；H4：W1对M1和Y的关系起调节作用，即W1较高时，M1对Y的正向影响将增强；当W1较低时，M1对Y的正向影响将减弱；H5：W2对M2和Y的关系起调节作用，即W2较高时，M2对Y的正向影响将增强；当W2较低时，M2对Y的正向影响将减弱。答：回归模型基本所有软件都可以比如excel只要有分析模

0.0000 0 2

在做主成分分析时，原始数据可以取ln吗

主成份分析一般有两种选择，一种是基于相关系数矩阵，一种是基于协方差矩阵，前者实质上就是对数据进行了标准化处理（将数据减均值再除以标准差后的协方差矩阵就是相关系数矩阵）。所以，一般做主成份时，不需要自己手动做标准化处理，直接在软件上做一个选项就可以了（例如SPSS可以点不同的选项）。另外，取对数肯定会影响经济学含义的，取不取对数，可以根据过往的文献，以及实际的经济学含义进行取舍。

0.0000 1 1

P值大于0.05是怎么回事

如果是回归模型的话可能提取的因子和因变量关系不显著如果是相关系数的P值那自变量提取因子后肯定是大于0.05的

0.0000 0 1

贝叶斯算法怎么推导？

贝叶斯算法是机器学习中主要的十大算法之一，什么是贝叶斯？贝叶斯观点认为，概率是一个人对于一个事件发生的信心，即认为一个事件有多大的可能性会发生。如果认为一定会发生，概率就是1；认为一定不会发生，概率就是0；有可能发生，概率就介于0-1之间。这种概率会随着观测数据的变化而变化。一开始我们没有数据，只能根据原有经验猜测一个大概的概率，称为先验概率。随着观测数据的积累，我们会逐渐修正我们的先验概

150.0000 1 0

“ugarchroll”进行滚动预测，数据报错

求助各位大佬：我的数据是上证综指的对数收益率，从1991-1-2到2018-12-18号，我想用“ugarchroll”实现滚动预测，我的模型是ARMA(1,1)-GARCH(1,1)，想分别用第1-500天的收益率数据，预测第501天的参数，并计算出各分位数下的VaR，然后再用2-501天的收益率数据，去预测第502天的参数，并就算各分位数下的VaR，直到预测到2018年12月28日的

371.8940 3 3

R方与调整R方

从应用上来讲，R²可以理解成为回归方程的解释度，也就是因变量y的变化有多少百分比是可以由自变量的变化来解释的。但是R²有一个非常不好的特征，就是只要加多自变量，自变量对因变量变化的解释程度一定是随之增加的，所以会造成一种越多自变量越好的错觉。因此引入了调整R²的概念。主要是在R²的基础上，加上对变量数量的调整，这样就避免了只要自变量数量增加，自变量对因变量的解释程度就增加的这种不合理的现象。

0.0000 0 0

先验概率和后验概率

先验概率（prior probability）是指根据以往经验和分析得到的概率，如全概率公式，它往往作为"由因求果"问题中的"因"出现的概率。后验概率( posterior probability)是指通过调查或其它方式获取新的附加信息，利用贝叶斯公式对先验概率进行修正，而后得到的概率，而且在利用样本资料计算逻辑概率时，还要使用理论概率分布，需要更多的数理统计知识。举个例子：一口袋里有3

0.0000 0 2

<1…414243…55>

快速发帖我要提问

数据分析师求职、备考、笔试
刷题神器！

社区福利马上领

热门用户换一批

: 詹惠儿

: 赵娜0418

: shauna570392

: 啊啊啊啊啊吖

: liting李

: 读童话的狼

本月PGC排行

总奖励

暂无数据