有福有德

2018-10-10   阅读量: 1094

岭回归问题和SPSS的实现

扫码加入数据分析学习群

线性回归形式可以表达为

存在岭参数k>=0,如果k=0,β ̂就是最小二乘估计。较大的岭迹参数k将增加估计偏差,但会减小方差,而k存在无穷多个可能,因此,我们需要选择某个k值使估计偏差和方差达到最优平衡。

岭回归方法是一种有偏估计,主要是以损失少部分信息和精度的前提下,拟合更符合实际情况的回归方程。当自变量存在严重共线性时,也许并不一定导致矩阵的行列式等于零,但会非常接近于零,若为零,方阵不可逆,则出现奇异矩阵,如公式,此时若可以给X^' X加上正常数矩阵k·I,奇异性就会得到有效改善,并在不改变维度的情况下,平衡偏差和方差问题。

使用银行贷款数据(官方数据),为了说明共线性问题,我们并没有把所有变量加入模型,只是选择其中存在共线性问题的变量加入其中。此外,由于SPSSS软件并不提供岭回归的菜单功能,因此如下程序可用来实现岭回归分析。

INCLUDE "[安装路径]/Samples/English/Ridge regression.sps".

RIDGEREG DEP=creddebt /ENTER=employ address income debtinc othdebt

/START=0

/STOP=1

/INC=0.05

INCLUDE用于调用Ridge regression.sps文件需要修改安装路径,DEP表示因变量,ENTER表示自变量,其他的三个选项用于控制k值的区间调用步长。岭回归输出中的岭迹图主要用于判断岭参数k值。

如岭迹图所示,5个自变量会产生5个岭迹点图(左图)。如果变量之间存在共线性,点图会趋向于一致,例如收入和其他贷款额度的皮尔逊相关系数是0.82,k值处于0.3左右时趋于一致;而工作时间和居住时间的皮尔逊相关系数是0.33,在k值取值为0.1左右趋于一致,但岭迹点图显示拐点并不清晰,主要因为两条线的相对差异并不大,也正应和了相关系数小的特征。

由于图形涉及5个变量,假设存在两组共线性(其实严格从0.9的R方来说,没有共线性),因此我们很难使用一个k值,又由于k值越大,对模型偏差造成的影响越大,R方也会偏向于更小(右图),因此我们更愿意选择小一点的k值。综合来看,我们发现0.1到0.3间的0.2处可以作为一个折中点。此时对应的模型R方也接近于0.7。

岭迹图

当我们一旦判断出k值时,这时我们就可以重新拟合模型,估计出岭回归的具体系数和拟合指标。具体操作是在上面程序中加入选项“/k=0.2.”。

752.3482 10 1 关注作者 收藏

评论(0)


暂无数据

推荐课程