在用决策树处理分类问题时，处理样本不均衡前后，为什么有些情况下准确率(accuracy)会下降？

2020-05-29 阅读量: 1245

Python数据分析机器学习

在用决策树处理分类问题时，处理样本不均衡前后，为什么有些情况下准确率(accuracy)会下降？

扫码加入数据分析学习群

该问题主要出现在样本极端不均衡的情况下,例如:银行对"坏"客户的预测问题.

首先，在不处理样本不均衡的问题时，模型主要学习的是多数类(这里的多数类,少数类指的样本标签)的规律，可能会忽略对少数类规律的学习，因此，模型的准确率会在多数类所占样本比例附近波动．

其次，在处理样本不均衡的问题时，会增加少数类的权重，降低多数类的权重．减少模型对多数类的学习，增加模型对少数类的学习，从而以降低对多数类的预测准确率为妥协，增加模型对少数类预测的正确率（即模型可以预测正确更多的少数类，对多数类的预测能力下降．）．因此，在有些情况下，处理样本不均衡问题前后，准确率会下降（此时，召回率会提高）．

16.7106 2 2 踩关注作者收藏

暂无数据

快速发帖我要提问

数据分析师求职、备考、笔试
刷题神器！

社区福利马上领

社区公告

在用决策树处理分类问题时，处理样本不均衡前后，为什么有些情况下准确率(accuracy)会下降？

评论(0)

推荐课程

推荐帖子

CDA数据分析学习之机器学习中损失函数、代价函数和目标函数的区别

自助法验证

留一验证

k-fold 交叉验证