hopeiagt

2020-05-29   阅读量: 1245

Python数据分析 机器学习

在用决策树处理分类问题时,处理样本不均衡前后,为什么有些情况下准确率(accuracy)会下降?

扫码加入数据分析学习群

该问题主要出现在样本极端不均衡的情况下,例如:银行对"坏"客户的预测问题.

首先,在不处理样本不均衡的问题时,模型主要学习的是多数类(这里的多数类,少数类指的样本标签)的规律,可能会忽略对少数类规律的学习,因此,模型的准确率会在多数类所占样本比例附近波动.

其次,在处理样本不均衡的问题时,会增加少数类的权重,降低多数类的权重.减少模型对多数类的学习,增加模型对少数类的学习,从而以降低对多数类的预测准确率为妥协,增加模型对少数类预测的正确率(即模型可以预测正确更多的少数类,对多数类的预测能力下降.).因此,在有些情况下,处理样本不均衡问题前后,准确率会下降(此时,召回率会提高).

16.7106 2 2 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子