统计学-数据科学专业问答社区-CDA答疑社区

CDA数据科学研究院 CDA考试中心 CDA网校企业服务

CDA社区

CDA竞赛 CDA技术答疑 CDA俱乐部

关于CDA APP下载

免密码登录

提交首次登录验证后自动注册

展开 +

j建模流程

明确需求：（因变量Y）数据清洗：（重复值、缺失值、异常值、数据编码）变量筛选：（业务、相关分析（看相关系数和散点图）、逐步回归）分割、测试机、训练集（预测）回归：（F检验（检验模型）、t检验（检验各个变量）、R^2(如果是多元线性回归的话再看调整后的R^2)）模型调优：考虑线性性、共线性、内生性、（残差的序列相关性、正态性和同方差）继续优化：（季节变量、高次项、交互项、哑变量）模型测试：测试集

271.7841 7 0

三类相关系数

皮尔逊相关系数（pearson）:一般计算两个连续型变量的相关系数肯德尔相关系数（kenddl）:一个连续性一个分类型斯皮尔曼相关系数（spearman）：两个变量，不论是连续型还是分类型都可，但尽量不要用斯皮尔曼相关系数，因为它是非参数的，会损失信息。

85.3070 6 0

假设检验

怀疑什么，什么就做原假设。第一类错误（弃真错误）：原假设为真时拒绝了原假设。第二类错误（取伪错误）：原假设为为假时接受了原假设。假设检验流程：提出原假设H0确定适当的检验统计量规定显著水平计算检验统计量的值做出统计决策

85.3021 6 0

统计分析——RFM模型

最近一次消费最近一次消费意指上一次购买的时候。理论上，上一次消费时间越近的顾客应该是比较好的顾客，对提供即时的商品或是服务也最有可能会有反应。营销人员若想业绩有所成长，只能靠偷取竞争对手的市场占有率，而如果要密切地注意消费者的购买行为，那么最近的一次消费就是营销人员第一个要利用的工具。历史显示，如果我们能让消费者购买，他们就会持续购买。这也就是为什么，0至6个月的顾客收到营销人员的沟通信息多于31

108.4091 6 0

数据分析——推荐算法

推荐算法是计算机专业中的一种算法，通过一些数学算法，推测出用户可能喜欢的东西，应用推荐算法比较好的地方主要是网络。所谓推荐算法就是利用用户的一些行为，通过一些数学算法，推测出用户可能喜欢的东西。推荐算法的研究起源于20世纪90年代，由美国明尼苏达大学GroupLens研究小组最先开始研究，他们想要制作一个名为Movielens的电影推荐系统，从而实现对用户进行电影的个性化推荐。

39.8327 5 0

统计学习——数据赋能

数字赋能的五个阶段分别是业务监控、业务洞察、业务优化、洞察变现和业务转型。如今是一个大数据时代，数据是很重要的信息，业务监控主要是收集用户数据、产品数据、运营数据等，形成报告或者报表。业务洞察是根据数据分析结论，对潜在客群，产品运营进行洞察。业务优化是根据分析结果，优化关键业务节点和流程引擎，在每个交易节点上降低成本、提升效率。洞察变现是根据对用户、产品、运营的洞察，寻找到用户变现、产品变现以及渠

21.7876 3 0

统计学习——数据清洗

数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序，包括检查数据一致性，处理无效值和缺失值等。与问卷审核不同，录入后的数据清理一般是由计算机而不是人工完成。数据清洗(Data cleaning)– 对数据进行重新审查和校验的过程，目的在于删除重复信息、纠正存在的错误，并提供数据一致性。数据清洗从名字上也看的出就是把“脏”的“洗掉”，指发现并纠正数据文件中可识别的错误的最后一道程序，包括检查

21.7835 2 0

统计学习——显著性

显著性，又称统计显著性（Statistical significance），是指零假设为真的情况下拒绝零假设所要承担的风险水平，又叫概率水平，或者显著水平。显著性表示得以相互区别的能力。在统计假设检验中，公认的小概率事件的概率值被称为统计假设检验的显著性水平，对同一量，进行多次计量，然后算出平均值。对于偏离平均值的正负差值，就是其不确定度。其差值越大，则计量的不确定度就越大，对于具有特定的发生概

37.0977 4 0

统计学习——矩阵的秩

矩阵的秩是线性代数中的一个概念。在线性代数中，一个矩阵A的列秩是A的线性独立的纵列的极大数，通常表示为r(A)，rk(A)或rank A。在线性代数中，一个矩阵A的列秩是A的线性独立的纵列的极大数目。类似地，行秩是A的线性无关的横行的极大数目。即如果把矩阵看成一个个行向量或者列向量，秩就是这些行向量或者列向量的秩，也就是极大无关组中所含向量的个数。方阵(行数、列数相等的矩阵)的列秩和行秩总是相等的

37.0937 3 0

随机森林

随机森林（Random Forest）是一种组合预测模型，顾名思义随机森林是用随机方式建立一片森林，森林中包含众多有较高预测精度且弱相关，甚至不相关的决策树并且成组合预测模型。在随机森林算法模型中的每一棵决策树中，彼此之间并没有联系。在建立好森林模型之后，每当出现新的空气数据输入样本时，森林模型中的每一棵决策树便各自独立进行判断。随机森林可以出来高维度（特征很多）的数据，并且不用降维，无需做特征选

18.0116 3 0

决策树

决策树是一种树形结构，其中每个内部节点便是属性上的测试，每个分支代表一个测试，每个支点代表一个测试输出，每个叶节点代表一种类别。决策树容易发生过拟合、容易忽略数据集中属性的相互关联。需对决策树进行剪纸枝处理，减小过拟合情况的发生。

18.0116 3 0

统计学习——偏态分布

偏态分布是与“正态分布”相对，分布曲线左右不对称的数据次数分布，是连续随机变量概率分布的一种。可以通过峰度和偏度的计算，衡量偏态的程度。可分为正偏态和负偏态，前者曲线右侧偏长，左侧偏短；后者曲线左侧偏长，右侧偏短偏态分布(skewness distribution)指频数分布的高峰位于一侧，尾部向另一侧延伸的分布。它分为正偏态和负偏态。偏态分布的资料有时取对数后可以转化为正态分布，反映偏态分布的集

17.3026 4 0

统计学习——正态分布

正态曲线呈钟型，两头低，中间高，左右对称因其曲线呈钟形，因此人们又经常称之为钟形曲线。若随机变量X服从一个数学期望为μ、方差为σ2的正态分布，记为N(μ，σ2)。其概率密度函数为正态分布的期望值μ决定了其位置，其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布。由于一般的正态总体其图像不一定关于y轴对称，对于任一正态总体，其取值小于x的概率。只要会用它求正态总体在某个特

83.8588 4 0

统计学习——置信度

在统计学中，一个概率样本的置信区间（Confidence interval）是对这个样本的某个总体参数的区间估计。置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度。置信区间给出的是被测量参数测量值的可信程度范围，即前面所要求的“一定概率”。这个概率被称为置信水平。置信区间只在频率统计中使用。在贝叶斯统计中的对应概念是可信区间。但是可信区间和置信区间是建立在不同的概念基础上的，因此

6.4076 3 0

统计学习——聚类算法原理

聚类方法1．层次聚类（Hierarchical Clustering）合并法、分解法、树状图2. 非层次聚类划分聚类、谱聚类聚类方法特征：· 聚类分析简单、直观。· 聚类分析主要应用于探索性的研究，其分析的结果可以提供多个可能的解，选择最终的解需要研究者的主观判断和后续的分析；· 不管实际数据中是否真正存在不同的类别，利用聚类分析都能得到分成若干类别的解；· 聚类分析的解完全依赖于研究者所

108.9181 5 0

统计学习——聚类分析

聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。它是一种重要的人类行为。聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域，包括数学，计算机科学，统计学，生物学和经济学。在不同的应用领域，很多聚类技术都得到了发展，这些技术方法被用作描述数据，衡量不同数据源间的相似性，以及把数据源分类到不同的簇中。聚类与分类的不同在于，聚类所要求划分的类是未知的。聚类是将数据

30.6754 5 0

统计学习——共线性

共线性，即同线性或同线型。统计学中，共线性即多重共线性。多重共线性（Multicollinearity）是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。一般来说，由于经济数据的限制使得模型设计不当，导致设计矩阵中解释变量间存在普遍的相关关系。完全共线性的情况并不多见，一般出现的是在一定程度上的共线性，即近似共线性。原因（1）经济变量相关的共同趋势。

84.2405 6 0

统计学习——残差分析

残差分析（residual analysis）就是通过残差所提供的信息，分析出数据的可靠性、周期性或其它干扰。用于分析模型的假定正确与否的方法。所谓残差是指观测值与预测值（拟合值）之间的差，即是实际观察值与回归估计值的差。在回归分析中，测定值与按回归方程预测的值之差，以δ表示。残差δ遵从正态分布N(0，σ2)。（δ-残差的均值）/残差的标准差，称为标准化残差，以δ*表示。δ*遵从标准正态分布N(

5.9299 5 0

统计学习——过拟合

过拟合是指为了得到一致假设而使假设变得过度严格。避免过拟合是分类器设计中的一个核心任务。通常采用增大数据量和测试样本集的方法对分类器性能进行评价。给定一个假设空间H，一个假设h属于H，如果存在其他的假设h’属于H,使得在训练样例上h的错误率比h’小，但在整个实例分布上h’比h的错误率小，那么就说假设h过度拟合训练数据。常见原因：（1）建模样本选取有误，如样本数量太少，选样方法错误，样本标签错误等，

84.1724 4 0

相关分析

相关分析是研究两个或两个以上处于同等地位的随机变量间的相关系数也是研究变量之间的密切程度及变化规律的一种统计方法。|r|>=0.8高度相关0.5=

163.6415 5 0

<1234…55>

快速发帖我要提问

数据分析师求职、备考、笔试
刷题神器！

社区福利马上领

热门用户换一批

: 詹惠儿

: 赵娜0418

: shauna570392

: 啊啊啊啊啊吖

: liting李

: 读童话的狼

本月PGC排行

总奖励

01: CDA持证人阿涛哥; 480.0000

02: 85691082; 320.0000