hcy吃猫的鱼

2020-08-19   阅读量: 666

8.19

扫码加入数据分析学习群

1.欺诈识别方法:逻辑回归、异常检测聚类;

2.评分卡分类:申请评分卡、行为评分卡、催收评分卡;

3.判断过拟合的条件:(1).训练集的判定系数大于90; (2).训练集的判定系数减去测试集的判定系数得出一个负值时,可能是欠拟合;

4.数据分区是来评估模型是否有过拟合问题;

5.判定系数只适用于连续型变量;

6.当y的各取值所占比例不平衡时,得出的正确率不可信;

7.谐波平均数:f1=2P*R/(P+R) R:召回率,一个都不能漏 P:精确度,一个都不能出错

8.看正确率:最大组除以最小组的结果在3以内 看谐波平均数:当y的各取值所占比例不平衡时;

9.评估模型是否有过拟合问题的方法:决策树、网络搜索;

10.如果交叉验证的结果间存在差异大于5%,那么可能存在过拟合问题;

11.一般CV设置为6,交叉验证主要用在决策树、网络搜索中;

12.预测:内衍(老客户--xtrain) 外推(新客户)

13.归因:主次归因、规则归因(决策树,贝叶斯);

14.大多数情况下,统计学主要是主次归因 机器学习主要是内衍预测 深度学习主要是外推预测;

15.概率越大,熵越小,确定性越大,当概率为0.5时,不确定性最大;

16.SGDClassifier:当Y为分类变量时;

17.在线/核外学习:可以运行超大行数据;

18.线性svm用于解决列大于行的场景 ,modified_huber用于数据中存在异常值的场景,log用于归因、预测概率p的场景;

19.正则化常用于解决共线性、稀疏、过拟合问题;

20.两个重要的全局参数:(1)earning_rate(学习率) : string,默认'optimal' (2)validation_fraction : float, default=0.1,验证集比例;

21.注意:网格搜索用于小数据;


添加CDA认证专家【维克多阿涛】,微信号:【cdashijiazhuang】,提供数据分析指导及CDA考试秘籍。已助千人通过CDA数字化人才认证。欢迎交流,共同成长!
28.0523 3 0 关注作者 收藏

评论(0)


暂无数据

推荐课程