你应该是一阵风丫

2020-10-17   阅读量: 628

机器学习【五】随机森林

扫码加入数据分析学习群

机器学习【五】随机森林

涉及内容:

简介————是一种集合学习算法,可以用于分类,也可以用于回归、可解决过拟合问题

随机森林构建 ————bootstrap 、max_features、n_estimators、图形看看随机分类的表现

实战:判断月薪是否>5万————载入数据集、用get_dummies处理数据、用决策树建模并预测

额外功能:在数据集中对数据特征的重要性进行判断————可以通过这两个算法对高维数据进行分析,在诸多特征中保留最重要的,也便于对数据降维处理

优点:

  • 不要求对数据预处理

  • 集成决策树所有优点,弥补了不足

  • 支持并行处理【实现方式是n_jobs参数,记得此参数要和cpu内核数一致,多了无意义,n_jobs=-1,使用全部内核】

  • 注意随机森林生成每棵树的方法是随机的,不同的random_state会导致模型完全不同,要固化其值

缺点:

  • 对于超高维数据集、稀疏数据集,线性模型更好

  • 更消耗内存,速度慢,若要省内存+时间,用线性模型


添加CDA认证专家【维克多阿涛】,微信号:【cdashijiazhuang】,提供数据分析指导及CDA考试秘籍。已助千人通过CDA数字化人才认证。欢迎交流,共同成长!
0.0000 0 0 关注作者 收藏

评论(0)


暂无数据

推荐课程