zengweiak47

2020-08-04   阅读量: 685

8月4日

扫码加入数据分析学习群

机器学习的分类:
监督学习
无监督学习
半监督学习
强化学习(用的不多)

监督学习:
(告诉模型什么是对的,什么是错的)
泛化能力----机器学习算法对新鲜样本的适应能力,学到数据背后的规律.

无监督学习.
没有正确和错误之分,类似学生从书本或网络自学的过程.
(主要不是做预测,用来发现新东西)
典型聚类,预测

半监督学习

以垃圾邮件分类
1.对1万的有标签的数据进行分类建模
2.对10万个无标签的数据进行分类预测
3.1万+5万训练集 ---> 从新训练模型
前提
1.数据越多越好
2.数据必须是正确的

强化学习:
核心是试错,无标签,自己对结果进行评价.不停试错.

机器学习任务
有监督学习 分类(判断有限个类别中哪一个,大多是一个概率值,离散的)
回归(连续的值)
机器学习 无监督学习 聚类(挖掘)

机器学习流程:数据预处理,模型学习,模型评估,新样本预测
建模相对简单,难点在于提高模型效果.

基本术语:
每一条记录为:一个实例或样本
数据集:所有记录的集合
训练集:含有参考答案的数据,学生的课本
验证集:调参数,类似于作业
测试集:考试

超参数:通过验证集来确定最优,同时约束(y=kx+b)中的k和b

分类方法一:
训练数据(90%作为真正训练,10%验证) 70%
测试数据 30%
交叉验证:
训练数据(k折交叉验证,一般k为10)
70%
测试数据 30%

模型误差
模型误差 = 偏差(与模型有关,期望与真实偏离程度) + 方差(与模型有关,数据扰动对,模型过于拟合) + 数据本身的误差(不可避免)

总误差里面包含偏差与方差,但很难定量超参数用于调整偏差与方差之比.

偏差:避免欠拟合
欠拟合(比较好解决)
寻找更好的特征 -- 具有代表性
用更多的特征 ----增大输入向量的维度
方差:避免过拟合
增大数据集合
减少数据特征
正则化方法
交叉验证法

机器学习评价标准
分类问题
混淆矩阵

训练集 不高 , 测试集 不高,是欠拟合, 测试集只能进行一次, 那怎么返回去调整 超参数 调整欠拟合或者过拟合呢?
1.特征没有代表性,从新选择特征值,换算法
2.特征过多

准确率(Accuracy):预测正确的样本占所有样本的比例

精确率:所有被分类为正例的样本中,真正是正例的比例

ROC曲线:

1.算法原理:推导过程
2.算法的实现:手写算法
3.sklearn
4.算法的应用

K最近邻算法
k为超参数(需要优化,k=1为过拟合(k过小),k过大为欠拟合)
服从正态分布用标准化,均匀分布用归一化,但也不一定,可以都试一试,看效果哪个好

查找最优超参数,防止参数在边缘,可能参数范围不够


添加CDA认证专家【维克多阿涛】,微信号:【cdashijiazhuang】,提供数据分析指导及CDA考试秘籍。已助千人通过CDA数字化人才认证。欢迎交流,共同成长!
34.9348 4 5 关注作者 收藏

评论(0)


暂无数据

推荐课程