8月26日_CDA答疑社区

2020-08-26 阅读量: 582

8月26日

扫码加入数据分析学习群

集成算法
找工作时千万别说大数据分析
大数据是pb级的数据,重点是数据的分布式存储分布式计算
使用决策树模型拟合带权重的样本，从而在每一次迭代的过程当中，让模型更加小心的对待预测错的样本，
从而整体上提高模型在训练集上的准确性.

adaboost算法：每一次迭代的过程当中，使用决策树模型训练带权重的样本，训练的过程当中，
会非常小心的对待权重大的样本（上一次迭代中预测错的样本。拟合好的模型会尽量将这些权重大的样本预测正确。
这次迭代之后，很可能还是会出现预测错的样本，再将这些预测错的样本的权重增大，减少预测正确样本的权重。
从而让下一次迭代中的这个模型很小心的对待这一次预测错的样本

数据无量纲化
minmax
std
knn,kmeans,Regression,Percption,Svm,PCA

缺失值(simpleImputer)
对离散填充一般用众数,
连续一般用中位数,平均数

处理分类特征:编码与哑变量
ordinal Encoder
OneHotEncoder(升维操作)

处理连续型特征:
二值化
分段(Bin,KBins)
特征选择:
Filter过滤法
方差过滤
相关性过滤
卡方过滤(独立)
F检验(线性)
互信息法(线性+非线性)
嵌入法:(RFC.fit(X,Y))RFC.feature.importance_,前k
wrapper包装法 ---RFE:递归删掉不重要的特征(使用随机森林)

xgboost里面的标签必须从零开始

添加CDA认证专家【维克多阿涛】，微信号：【cdashijiazhuang】，提供数据分析指导及CDA考试秘籍。已助千人通过CDA数字化人才认证。欢迎交流，共同成长！

35.9174 2 0 踩关注作者收藏

暂无数据

快速发帖我要提问

数据分析师求职、备考、笔试
刷题神器！

社区福利马上领

社区公告

8月26日

评论(0)

推荐课程