hopeiagt

2020-05-31   阅读量: 893

Python数据分析 机器学习

归一化和标准化的区别及如何使用scikit-learn进行处理?

扫码加入数据分析学习群

归一化(normalization)和标准化(standardization)是两种对数据去量纲的方法,它的区别如下:

归一化:归一化是将样本的特征值放缩到同一量纲下,缩放后的样本范围处于[0,1]或[-1,1]之间.归一化受样本的异常值影响较大,如果缩放后的数据小数位较多,则在用python计算数据的时候会出现一定偏差.因此,一般数据存在异常值偏差较大时,最好选用标准化对数据进行处理.一般KNN算法使用归一化对数据进行去量纲的处理.

标准化:标准化是通过计算整列数据的z-score值,将数据进行平移和缩放.该法不改变数据的分布.需要注意的是对数据进行标准化处理,并不是指处理后的数据会变为正态分布.

标准化和归一化的一般应用差别:

1. 可以使用标准化对使用无监督算法的数据进行处理;

2. 如果数据呈现钟型曲线,用标准化处理数据更好;

3. 如果数据中存在异常值(过大,或者过小),标准化的效果更好.

用scikit-learn库处理数据:

27.2220 2 4 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子