zengweiak47

2020-08-26   阅读量: 582

8月26日

扫码加入数据分析学习群

集成算法
找工作时千万别说大数据分析
大数据是pb级的数据,重点是数据的分布式存储分布式计算
使用决策树模型拟合带权重的样本,从而在每一次迭代的过程当中,让模型更加小心的对待预测错的样本,
从而整体上提高模型在训练集上的准确性.

adaboost算法:每一次迭代的过程当中,使用决策树模型训练带权重的样本,训练的过程当中,
会非常小心的对待权重大的样本(上一次迭代中预测错的样本。拟合好的模型会尽量将这些权重大的样本预测正确。
这次迭代之后,很可能还是会出现预测错的样本,再将这些预测错的样本的权重增大,减少预测正确样本的权重。
从而让下一次迭代中的这个模型很小心的对待这一次预测错的样本

数据无量纲化
minmax
std
knn,kmeans,Regression,Percption,Svm,PCA

缺失值(simpleImputer)
对离散填充一般用众数,
连续一般用中位数,平均数

处理分类特征:编码与哑变量
ordinal Encoder
OneHotEncoder(升维操作)

处理连续型特征:
二值化
分段(Bin,KBins)
特征选择:
Filter过滤法
方差过滤
相关性过滤
卡方过滤(独立)
F检验(线性)
互信息法(线性+非线性)
嵌入法:(RFC.fit(X,Y))RFC.feature.importance_,前k
wrapper包装法 ---RFE:递归删掉不重要的特征(使用随机森林)

xgboost里面的标签必须从零开始

添加CDA认证专家【维克多阿涛】,微信号:【cdashijiazhuang】,提供数据分析指导及CDA考试秘籍。已助千人通过CDA数字化人才认证。欢迎交流,共同成长!
35.9174 2 0 关注作者 收藏

评论(0)


暂无数据

推荐课程