zengweiak47

2020-08-20   阅读量: 563

8月20日

扫码加入数据分析学习群

集成学习
集成学习之结合策略:
平均法
算术平均
加权平均
投票法
相对多数投票法:少数服从多数


学习法:(解释性比较差)

AdaBoost:
集成学习中使用的学习器使用树模型(为什么使用树模型)
防止过拟合
分类问题
n_estimators 最大学习器数量(迭代次数)(需要优化)
learning_rate参数(防止纠错太猛,乘以一个系数,类似于学习率)(需要优化)
回归问题
loss参数:

Random Forest
里面弱分类器只能是决策树
样本随机,特征随机
时候大数据集
内部输出误差的一种无偏估计

分类效果:
森林容易两颗数的相关性:相关性越大,错误率越大
森林中每棵树的分类能力:每棵树的分类能力越强,整个森林的错误率越低
减小特征选择个数n`,树的相关性和分类能力也会相应的降低;增大`n,两者也会随之增大,所以关键问题也是如何选择最优的n`

sklearn 随机森林内参数
oob_score 袋外准确率False,则不计算
booststrap参数:改成False就变成特征随机,样本不随机
弱学习器数量越多越好
为什么boosting和bagging能提高性能?
boosting通过减小偏差的角度
bagging通过减小方差的角度

stacking
初级学习器的输出等于次级学习器的输入


个体学习器是否同类型
同质:
boosting系列:
Adaboost
GBDT
Xgboost
bagging系列:
bagging :样本随机,特征不随机
RF :样本随机,特征随机
异质: voting

按照结合策略:
简单结合: boosting, bagging, voting
两层学习器:stacking


35.9718 2 0 关注作者 收藏

评论(0)


暂无数据

推荐课程