姚慧扬

2020-08-08   阅读量: 664

机器学习流程

扫码加入数据分析学习群

业务理解(业务的背景,业务场景,需要解决的问题,业务目标,需要什么数据)

数据获取(综合考虑数据获取难度,准确率,覆盖率;如何获取(数据库,爬虫,调查问卷))

数据预处理:

训练集和测试集划分

数据查看:数据读取,数据的前几行,后几行,shape,缺失值情况,数据类型,统计描述性信息(数值型,类别型)

数据的清洗:删除无效字段,删除缺失值,填充缺失值,删除重复,异常值处理

数据探索性分析(挖掘特征和目标的关系,挖掘、提取新特征,输出各种图和表格)

无量纲化(标准化,归一化,正则化)

特征选择(筛选特征)

降维(对数据做变换)

特征编码:

序号编码:label encode,特征取值有大小或者逻辑关系

哑编码:特征的取值独立,特征的数量会变多,产生稀疏矩阵,编码后可以降维操作

模型训练:

模型选择:分类,回归,线性,非线性

模型训练

模型的优化:训练集(网格搜索交叉验证),测试集

模型的评估

模型应用


31.3758 2 3 关注作者 收藏

评论(0)


暂无数据

推荐课程