zengweiak47

2020-08-17   阅读量: 587

8月17日

扫码加入数据分析学习群

特征工程 = 数据准备(for 数据挖掘)
商业理解
数据理解
数据准备(归一化,标准化)
构建模型
模型评估
模型发布

进行特征工程时信息丢失不可避免,但减少丢失的信息对模型的影响.
在解决问题时,会花费超过一半的时间来选择正确的特征.
好数据>多数据>好算法
数据的特征决定了模型预测的上限,而算法只是逼近这个上限而已

什么是好的特征? - 少而精!
模型更简单:同样的模型精度选择更简单的模型
模型更精准:好的特征是数据中抽取出来对预测结果最有用的信息

例如文本特征提取:
采用词袋模型, TF-IDF
图像数据的特征提取:
图像构成:像素+颜色
图像的每个像素点:RGB的值
用户行为特征(RFM):
提取最近一次消费时间,消费频率,总的购买金额
购买商品类型, 价格
未处理特征问题:
属于不同量纲
信息冗余
定性特征不能直接使用
学习利用率低

特征处理
缺失值处理
无量纲化

PCA无监督降维
LDA有监督降维(找到一条线,分类样本点投影到这个条线尽可能聚集)
特征选择:
FIlter:过滤法(用的比较多)--方差选择法
--卡方检验法
包装法:在特征随机选择两个特征,进行逻辑回归建模,选择最优结果
嵌入法:按分数划分,分值排序


神经网络:
激活函数:Sigmoid(可以理解为一个神经元就是一个逻辑回归)
问题在两边斜率接近0,更新慢
激活函数: Tanh
激活函数:ReLu(容易失活)
激活函数:Leaky Relu

单层神经网络为什么不能解决异或问题(系数找不到)
神经网络越多,可以解决的问题越复杂
做数据分析神经网络两道三层,不要超过五层
在隐藏层,|表示激活函数
越向输出越靠前
Bp是反向传播运算(难点)
去掉sigmoid间接去掉一层(引入sigmoid是为了非线性问题))
所有样本总误差对系数求解

添加CDA认证专家【维克多阿涛】,微信号:【cdashijiazhuang】,提供数据分析指导及CDA考试秘籍。已助千人通过CDA数字化人才认证。欢迎交流,共同成长!
32.2244 3 2 关注作者 收藏

评论(0)


暂无数据

推荐课程