8.17-8.18_CDA答疑社区

2020-08-18 阅读量: 709

8.17-8.18

扫码加入数据分析学习群

1.在y连续的情况下，当x是有两个取值的分类变量时，用t检验；当x是有多个取值的分类变量时，用方差分析；当x是连续型变量时，用方差分析；

2.当数据量低于10万时，不要用机器学习模型，否则会导致结果不准确；

3.小数据：样本量小于1万，来源为问卷大数据：样本量在10万--几亿之间，来源为数据库；

4.方差分析结果显著时，才能进行多重比较；

5.当存在多个x时，用“+”来连接；

6.显著性是小数据的产物，大数据不能用，而应该用业务和效应来解释；

7.单个变量的缺失值用中位数填补，异常值用缩尾处理，特征筛选用回归分析，变换是y的变换，编码是y的编码；

8.多个变量的异常值，特征筛选用回归分析；

9.当缺失值比例小于百分之十几的时候可以用中位数填补，数据量很大时用随机森林填补缺失值；

10.特征筛选：fit.get_support(indices=True)--查看删除后的结果，哪些列被删了，哪些列保留了下来；

11.SelectPercentile(score_func=f_regression,percentile=70)：percentile=70表示保留70%的变量，即删除30%的变量；

12.0.1-0.35：低度相关 0.35-0.7：中度相关 0.7-0.9：高度相关 >0.9：高危相关，可能过拟合

13.最小二乘法：数据量控制在10万行以内；

14.列数超过15列时属于高维分析；

15.梯度下降法中参数alpha（学习率）的范围在0到1之间；

16.SGDRegressor（）中参数penalty=“l1”时，是lasso回归，penalty=“l2”时，是岭回归；

添加CDA认证专家【维克多阿涛】，微信号：【cdashijiazhuang】，提供数据分析指导及CDA考试秘籍。已助千人通过CDA数字化人才认证。欢迎交流，共同成长！

24.4744 2 1 踩关注作者收藏

暂无数据