zengweiak47

2020-08-29   阅读量: 605

8月29日

扫码加入数据分析学习群

拉格朗日插值法
隐式知识点:描述两个变量的相关性,使用条形堆栈条形图 卡方检验
两个连续变量:散点图 + 趋势线 相关系数
一分类一连续:分组箱线图 t检验(二分类)方差分析(多分类 )
无监督分箱
有明确业务逻辑,只能用自定义分箱
1,2,3,4,5,6,7,100
等宽,等深分箱:
等宽:3个箱子,分割点[1,34,67,100](距离相等,保存了分布信息)
等深:3个箱子,分割点[1,3,6,100](个数)
有监督
聚类:依信息分
线性关系(回归)不用分箱
非线性关系考虑分箱,可能效果R²效果会好

预测时只能用y之前的来预测y
卡方分箱
cart树分箱(就是新建一个决策树,可以调优,min_impurity_decrease(每个节点不纯度下降最小值))

添加CDA认证专家【维克多阿涛】,微信号:【cdashijiazhuang】,提供数据分析指导及CDA考试秘籍。已助千人通过CDA数字化人才认证。欢迎交流,共同成长!
44.4249 1 0 关注作者 收藏

评论(0)


暂无数据

推荐课程