sklearn中随机森林有哪些重要的参数

2018-11-16 阅读量: 1437

数据分析师机器学习

扫码加入数据分析学习群

使模型预测效果更好的特征：

n_estimators：随机森林里子树的数量，通常数量越大，效果越好，但是计算时间也会随之增加。此外要注意，当树的数量超过一个临界值之后，算法的效果并不会很显著地变好。
max_features：分割节点时考虑的特征的随机子集的大小。这个值越低，方差减小得越多，但是偏差的增大也越多。根据经验，回归问题中使用 max_features = n_features，分类问题使用 max_features = sqrt（n_features ）（其中 n_features 是特征的个数）是比较好的默认值。
min_samples_leaf：叶子节点最少的样本数，当叶子节点的样本数少于设置的阈值时该节点停止生长。

使模型训练更容易的特征：

n_jobs：这个是job可并行计算的个数，这个参数告诉引擎有多少处理器是它可以使用。 “-1”意味着没有限制，而“1”值意味着它只能使用一个处理器。
oob_score：这是一个随机森林交叉验证方法。oob（out of band，带外）数据，即：在某次决策树训练中没有被bootstrap选中的数据。当使用自助采样法方法抽样时，泛化精度是可以通过剩余的或者袋外的样本来估算的，设置oob_score=True即可

添加CDA认证专家【维克多阿涛】，微信号：【cdashijiazhuang】，提供数据分析指导及CDA考试秘籍。已助千人通过CDA数字化人才认证。欢迎交流，共同成长！