hcy吃猫的鱼

2020-08-18   阅读量: 709

8.17-8.18

扫码加入数据分析学习群

1.在y连续的情况下,当x是有两个取值的分类变量时,用t检验;当x是有多个取值的分类变量时,用方差分析;当x是连续型变量时,用方差分析;

2.当数据量低于10万时,不要用机器学习模型,否则会导致结果不准确;

3.小数据:样本量小于1万 ,来源为问卷 大数据:样本量在10万--几亿之间,来源为数据库;

4.方差分析结果显著时,才能进行多重比较;

5.当存在多个x时,用“+”来连接;

6.显著性是小数据的产物,大数据不能用,而应该用业务和效应来解释;

7.单个变量的缺失值用中位数填补,异常值用缩尾处理,特征筛选用回归分析,变换是y的变换,编码是y的编码;

8.多个变量的异常值,特征筛选用回归分析;

9.当缺失值比例小于百分之十几的时候可以用中位数填补,数据量很大时用随机森林填补缺失值;

10.特征筛选:fit.get_support(indices=True)--查看删除后的结果,哪些列被删了,哪些列保留了下来;

11.SelectPercentile(score_func=f_regression,percentile=70):percentile=70表示保留70%的变量,即删除30%的变量;

12.0.1-0.35:低度相关 0.35-0.7:中度相关 0.7-0.9:高度相关 >0.9:高危相关,可能过拟合

13.最小二乘法:数据量控制在10万行以内;

14.列数超过15列时属于高维分析;

15.梯度下降法中参数alpha(学习率)的范围在0到1之间;

16.SGDRegressor()中参数penalty=“l1”时,是lasso回归,penalty=“l2”时,是岭回归;


添加CDA认证专家【维克多阿涛】,微信号:【cdashijiazhuang】,提供数据分析指导及CDA考试秘籍。已助千人通过CDA数字化人才认证。欢迎交流,共同成长!
24.4744 2 1 关注作者 收藏

评论(0)


暂无数据

推荐课程