zhongxn

2020-08-23   阅读量: 1032

统计学

卡方分箱

扫码加入数据分析学习群

分箱的原因:

1、模型稳定:在一般情况下建立分类模型是,需要对连续变量进行离散化,离散后的特征能够去除噪声,对异常值不再敏感,使得模型可以更加的稳定。

2、简化模型:降低样本中的个别信息对模型的影响,降低过拟合的风险。


分箱的目的:

1、离散特征的增加和减少很容易,易于模型的快速迭代。

2、稀疏向量内积乘法运算速度快,计算结果方便存储,容易扩展。

3、列表内容离散化后的特征对异常数据有很强的鲁棒性。【离散化后的,减少异常数据对模型干扰】

4、列表内容逻辑回归属于广义线性模型,表达能力受限;单变量离散化为N个后,每个变量都有单独的权重,相当于为模型引入了非线性,能够提升模型表达能力,加大拟合。

5、离散化后可以进行特征交叉,有M+N变量变成M*N个变量,进一步引入非线性,提高表达能力。

6、列表内容特征离散化后,模型更加稳定,且起到简化模型的作用,降低模型过拟合的风险。

7、将所有变量变换到相似的尺度上。


卡方分箱原理:

卡方值的计算公式的意义是衡量观测值与理论值的距离,如果卡方值小,说明观测值和理论值差距很小,也就说明特征无论取x1或x2,类别的分布是相似的。

因为对于精确的离散化,相对类频率在一个区间内应当完全一致。 因此如果两个相邻 的区间具有非常类似的类分布,则这两个区间可以合并,即当越低卡方值,说明他们具有越相似的类分布。


卡方分箱步骤:

1、设定卡方的阈值

2、初始化

根据离散化的属性对实例进行排序:每个实例属于一个区间

3、合并区间

①计算每一相邻区间的卡方值

②将卡方值最小的一对区间合并


卡方阈值的确定

1、根据显著性水平和自由度确定

2、自由度=(行数-1)*(列数-1)。【自由度为2的90%置信度(10%置信水平)下,卡方的值为4.6】

3、类别和属性相互独立时,有90% 的可能计算得到的卡方值会小于4.6,当大于阈值4.6时,说明类别和属性不是相互独立的,不能合并。

4、阈值选择过大,则区间合并会进行很多次,使得区间数量少,区间大。

37.4817 3 0 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子