赵娜0418

2020-11-22   阅读量: 535

统计学

类别不平衡的时候应该如何解决?

扫码加入数据分析学习群

问题详述:类别不平衡的时候应该如何解决?



解答:

有些情况下训练集中的样本分布很不平衡,例如在肿瘤检测等问题中,正样本的个数往往非常的少。


从线性分类器的角度,在用 y = wx +b 对新样本进行分类的时候,事实上在用预测出的y值和一个y值进行比较,例如常常在y>0.5的时候判为正例,否则判为反例。几率y/1-y反映了正例可能性和反例可能性的比值,阈值0.5恰好表明分类器认为正反的可能性相同。


在样本不均衡的情况下,应该是分类器的预测几率高于观测几率就判断为正例,因此应该是 y/1-y > m+/m- 时预测为正例,这种策略称为rebalancing。但是训练集并不一定是真实样本总体的无偏采样,通常有三种做法,一种是对训练集的负样本进行欠采样,第二种是对正例进行升采样,第三种是直接基于原始训练集进行学习,在预测的时候再改变阈值,称为阈值移动。


注意过采样一般通过对训练集的正例进行插值产生额外的正例,而欠采样将反例划分为不同的集合供不同的学习器使用。

有些情况下训练集中的样本分布很不平衡,例如在肿瘤检测等问题中,正样本的个数往往非常的少。


从线性分类器的角度,在用 y = wx +b 对新样本进行分类的时候,事实上在用预测出的y值和一个y值进行比较,例如常常在y>0.5的时候判为正例,否则判为反例。几率y/1-y反映了正例可能性和反例可能性的比值,阈值0.5恰好表明分类器认为正反的可能性相同。


在样本不均衡的情况下,应该是分类器的预测几率高于观测几率就判断为正例,因此应该是 y/1-y > m+/m- 时预测为正例,这种策略称为rebalancing。但是训练集并不一定是真实样本总体的无偏采样,通常有三种做法,一种是对训练集的负样本进行欠采样,第二种是对正例进行升采样,第三种是直接基于原始训练集进行学习,在预测的时候再改变阈值,称为阈值移动。


注意过采样一般通过对训练集的正例进行插值产生额外的正例,而欠采样将反例划分为不同的集合供不同的学习器使用。


46.2668 2 0 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子