8月30日_CDA答疑社区

2020-08-30 阅读量: 664

8月30日

扫码加入数据分析学习群

竞争:抄作业
1.客户画像
1.1 归纳指标-->作图分析/打分
常见指标:RFM:最近,频率,金额-->作图,分象限描述-->打分

1.2聚类-->分群:最重要的是解释每一个簇的描述(依据簇中心)
方法:kmeans,凝聚层次聚类,DBSCAN(密度聚类)
苹果指标:轮廓系数,为什么评估:选方法,选簇个数
注意的点:相异度指标-->欧氏距离:1.量纲(标准化),2.维度(列的个数,不适用高维数据,列数在20-30维)knn最优先降维

2.品类分布:看同行主要卖什么?
问题:什么-->类目,使用对象
指标:销售额占比
结论:

3.产品结构:看产品分类,依据波士顿矩阵.

(异常值处理方式:
来源:错误,右偏
错误 -->NA
(右偏必须处理,算法不喜欢)
右偏产生异常:1.右偏处理(目标:不那么右偏,接近正态),针对一般都是回归(作图),取对数
2.针对异常值:盖帽法用比较大的数据替换特别大的数据-->99%分位数替换大于99%分位数的值,小于1%
(发现数据断层现象,可能使用盖帽法,优先使用取对数)或者删除

做波士顿矩阵,交易增长分界线一般依据中位数,交易占比30%分界线

处理x:文档词矩阵 dtm 量化文本数据:行:所有文档:列:所有词
例子克星家用全窝端室内厨房南方一窝端强力 y(转化率)
1. 1 1 1 1 1 1 1 0 0.02
2. 1 1 1 0 1 0 1 1(TF-IDF) 0.021
稀疏矩阵: 0多,(存储方式不一样),计算方式不同:
0-1数据算距离:(余弦距离)
目的:宝贝标题关键词布局:
分析:建模:1.回归,,根据beta确定关键词对y的影响 --->筛选排序
2.提升算法:随机森林:变量重要性排序

4.流量结构

5.逾情:评论数据,文本数据(搜狗词库)
文本数据:1.洗数据;2.可视化(词云);3建模(dtm)
1.洗数据
中文:替换非中英文字符为空-->分词(结巴分词) -->去停用词-->筛选高频词/去低频词(出现文本数较小,普遍现象,自己尝试)
英文:所有字符小写-->替换非英文字符为空-->stemming(apples apple:appl)去掉英文后缀词-->去停用词-->筛选高频词/去低频词

TF-IDF(词权重) -->文档词矩阵 = TF * IDF
TF:词频:词w在文档d出现次数/文档d中所有词的总数
IDF:逆文档频率(对特别普遍的词的惩罚):log(文档集文档的总个数/包含词w的文档的个数)

引申:
有监督算法:解释性<-->预测性
偏解释性算法(通常情况下,预测能力一般):
回归:解释x和y的关系
决策树:规则
偏逻辑简单的算法:没有解释性,预测性一般
KNN
朴素贝叶斯

偏预测性算法:预测能力好,没有解释性
组合提升:adaboost,RF, xgboost
SVM(数据量小,效果不错)
神经网络(BP,感知机) -->深度学习

无监督算法:
主成分 --> 因子:降维
聚类:kmeans:计算快,目标:球形簇
凝聚层次:邻近(手拉手)
DBSCAN密度:集中的点
关联规则:购物篮分析
推荐:
文本:

SVM
考虑惩罚的前提小找边缘最大的决策边界 --->边缘最大:分的最开--->引入错误--->引入错误惩罚
损失函数:对偶拉格朗日函数

考虑惩罚的前提小,目标是最大边缘,找到支持向量,从而确定决策边界w*x + b = 0
核技术:多项式,径向基,sigmoid,可以使用核技术 J越大越窄,越小越宽

线性回归建模流程:
洗数据:缺失值,异常值,偏态
筛选x:逐步法,随机森林(对x综合能力的考虑),lasso回归帮助筛选x
建模:线性回归: F分析对应的p(H0:betal=beta2=...=betan=0)考虑原假设成不成立
看betai对应pi(H0:betai=0)p值<0.05betai才有意义
检验回归有效性:
残差图(线性)
共线性(线性回归,逻辑回归)

系数解释:
y = beta0 + beat1 x1 + beta2 * x初中 + beta3 x高中
y 消费 x1 收入
beta1: 在保持其他x不变的前提下,收入每增加1个单位,消费平均增加beta1个单位
x2 教育等级:小学,初中,高中 x2->变成哑变量
x2 选小学作为基等级 x初中 x高中
小 0 0
初 0 1
高 1 0
beta2:在保持其他x不变的前提想,初中相对于小学来说,消费平均增加beta2单位

44.5507 2 0 踩关注作者收藏

暂无数据

快速发帖我要提问

数据分析师求职、备考、笔试
刷题神器！

社区福利马上领

社区公告

8月30日

评论(0)

推荐课程