shauna570392

2020-07-09   阅读量: 872

机器学习

缺失值应该如何填补进行处理?

扫码加入数据分析学习群

主要看业务逻辑和缺失值占比,目标保证对预测结果影响越小越好

1. 占比较多:如80%以上,删除缺失值所在列(如果对字段有特殊需求,那就删除样本,前提是样本足够多)

2. 占比一般:30%-80%,将缺失值作为单独的类

3. 占比少:10%-30% , 多重插补(通过特征进行相互间的预测)随机森林回归填补

4. 占比较少:10%以上,单一值替换:中位数、均值、众数

5. 在决策树中可以将缺失值处理融合到算法中:按比重分配


18.4101 2 5 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子