姚慧扬

2020-08-27   阅读量: 623

数据预处理

扫码加入数据分析学习群

数据预处理

无量钢化(要计算距离的都要) MinMaxScaler or StandardScaler

KNN,K-mean,回归,感知机,SVM,PCA这些算法都要无量纲化

缺失值处理

fillna() -pandas

SimpleImputer(stratory).fit(xtrain) -sklearn

连续型:中位数,均值; 离散型:众数

处理分类型特征:编码与哑编码

OrdinalEncoder().fit().transform()

OneHotEncoder [会导致增维]

处理连续型特征:二值化与分段

Binarier(throshold阈值)

KBins(K=分几个箱子?strakegy=kmeans,uniform,quantile)


35.7240 1 0 关注作者 收藏

评论(0)


暂无数据

推荐课程