姚慧扬

2020-07-29   阅读量: 909

统计学

逻辑回归

扫码加入数据分析学习群

logistic回归

1.模型长成什么样? log(p/1-p)=β0+β1x+ε

a.y是分类数据

b.R^2与线性回归的R^完全不同(P,R,f,准确率)

c.数据分区(可以处理数据过拟合)

2.损失函数(成本函数)长成什么样?

a.大概记住损失函数是什么样子?

3.更新函数长成什么样?

a.更新函数的内容都一样,在机器学习中的形式可能不一样

b.python包中参数怎么选?参数搜索功能


分区

测试集test 20% / 训练集train 70% / 验证集vaild 10% | 得分集score[真实数据]

验证集是用来避免漏测试题的


是否过拟合?

1.训练集的R^2是否过高

2.测试集与训练集的R^2差差多少??

相差15%为大幅度下降,模型不可用

5%以内 显著差异,可以接受

5-15% 过拟合


逻辑回归模型好不好不能只看R^2,逻辑回归的R^2与线性回归的不同

逻辑回归出来的得分不是R^2,而是准确率

当y=0和1平衡的时候才能参考准确率,就是y=0有50%左右,y=1有50%,但是真实中,0和1是经常不平衡的,所以有以下:



横预估y尖

0 1

纵实际y

0 a b

1 c d



recall 召回率R:一个都不能少,一个都不能漏掉!所有人都纳进来,要花费大量的人力识别[一般用于很严重的情况]

R=d/c+d(预测准确的/所有的实际量)

precision 精准率P:一个都不能错[范围比较小,误差比较大]

p=d/c+b(预测准确的/所有的预估量)

召回率与精准率是反关系,召回率高,精准率低;反之同理

由上句话可知,在总体量不变的情况下[很重要的前提条件],我们是无法同时提高R和P,

因此我们需要在R和P之间取一个平衡,取最优值

所以把召回率R和精准率P进行整合,形成一个新的指标'谐波平均',用来取R和P平衡的最优值!


加权平均强调大权重变量的影响程度

谐波平均f强调小权重变量的影响程度,权重比较小的变量的贡献

一般来说f越大,说明逻辑回归模型越好


如何解释逻辑回归系数?

or值=exp(β1)

or值以1做起点,范围(0,1)负相关,(1,正无穷)正相关

or值是


交叉验证CV

1.分区-判断是否过拟合(交叉验证也可以做这件事)

2.CV适合用于支持向量机SVM,决策树


列数

<15 正常

>15 大于15就推荐用支持向量机

>100 高维

>500 超高维

列数>行数(大部分方法都不能用!)


参数

1.可调性参数 [可以按照经验值来调]

2.不可调性参数 [需要按照测试来调]

3.全局参数


添加CDA认证专家【维克多阿涛】,微信号:【cdashijiazhuang】,提供数据分析指导及CDA考试秘籍。已助千人通过CDA数字化人才认证。欢迎交流,共同成长!
30.7657 4 2 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子