zengweiak47

2020-07-30   阅读量: 674

7月30日

扫码加入数据分析学习群

Y Xxx
实验室 连续 2-3个
问卷 连续 6-9个
数据库 分类 15个左右 备选200-500
云计算 分类 300个左右 备选10万左右

用维度低的去探究维度高的
主成分分析丢弃30%的信息也是允许
不能对重要变量压缩
主成分本质是聚类,起到压缩特征

主成分+回归
可视化
结构
原维度/预计降到的维度 > 3,则可以接受
为了可视化效果,可以牺牲解释度.
主成分回归主要解决老样本预测.

随机梯度下降(每次就读一行数据)
批量梯度下降(一次整个读取)
小批量梯度下降(分批读取,运算超大数据)
相关系数达到0.9以上,不宜使用对中处理,相关系数0.8左右,可以使用对中处理,缓解共线性.
MinMaxScaler(feature_range=(0,1)).fit_transform(raw)(1)适用于神经网络,(2)效应分析
RobustScaler(quantile_range=(25.0, 75.0),with_centering=True,with_scaling=True).fit_transform(raw)#稳健变换 (xi-中位数)/四分卫距,用的最多(数据右左偏,数据异常值(尾巴很厚[厚尾]))
Binarizer(threshold=0).transform(zraw1)#二值变换,大于threshold值的赋值1,其他为0(门槛值,低于为0,超过为1)用于图片过滤
zraw5=normalize(raw,norm='l1',axis=1)#特征归一化,l1表示L1范数(曼哈顿聚类,L2是欧式距离),axis=1表示行的绝对值和为1;L1城市距离,L2欧式距离(行与行相加用距离)
欧式距离 = 两点平方和开根号 用于客户画像
城市距离 = 两点距离取绝对值
zraw6=np.log(raw)#另外见PowerTransformer()小数据经常用到,大数据基本不用

0.1509 2 2 关注作者 收藏

评论(0)


暂无数据

推荐课程