kejiayuan0806

2018-10-22   阅读量: 1051

数据分析师 统计学

相关分析的常用方法

扫码加入数据分析学习群

相关分析是研究两个或两个以上处于同等地位的随机变量间的相关关系的统计分析方法。

两个变量之间的相关程度通过相关系数r来表示。相关系数r的值在-1和1之间,但可以是此范围内的任何值。正相关时,r值在0和1之间,散点图是斜向上的,这时一个变量增加,另一个变量也增加;负相关时,r值在-1和0之间,散点图是斜向下的,此时一个变量增加,另一个变量将减少。r的绝对值越接近1,两变量的关联程度越强,r的绝对值越接近0,两变量的关联程度越弱。

1、相关图

将数据进行可视化处理,单纯从数据的角度很难发现其中的趋势和联系,而将数据点绘制成图表后趋势和联系就会变的清晰起来。常用的相关图有折线图和散点图。

2、协方差及协方差矩阵

协方差用来衡量两个变量的总体误差,如果两个变量的变化趋势一致,协方差就是正值,说明两个变量正相关。如果两个变量的变化趋势相反,协方差就是负值,说明两个变量负相关。如果两个变量相互独立,那么协方差就是0,说明两个变量不相关。

当有两组以上数据时就需要使用协方差矩阵

3、相关系数

相关系数(Correlation coefficient)是反应变量之间关系密切程度的统计指标,相关系数的取值区间在1到-1之间。1表示两个变量完全线性相关,-1表示两个变量完全负相关,0表示两个变量不相关。数据越趋近于0表示相关关系越弱。

其中rxy表示样本相关系数,Sxy表示样本协方差,Sx表示X的样本标准差,Sy表示y的样本标准差。下面分别是Sxy协方差和Sx和Sy标准差的计算公式。由于是样本协方差和样本标准差,因此分母使用的是n-1。

0.0000 0 5 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子