数据科学专业问答社区，好文章，一字千金--CDA答疑社区

优化

分析的最终目标无非两种：寻找解决方案，寻找更好的解决方案。第一步是保证数据的准确性和稳定性，第二步就是优化，提高准确性、提高效率和效益。优化包含两部分的内容：缩小当前和目标的差距，直到达成并超越目标；在成本或者预算固定的前提下，使收益最大化。 1、缩小当前和目标的差距 e.g. 全公司各部门各业务线的同事们都在追逐和超越KPI的路上；e.g. 机器学习建模时，尝试多种方案，调试各种参数，使模型的精

刘思婵

2020-08-29

38.7939 2 0

层级2

5.2自下而上的组合就是将个体组成群体，将小的指标组合成一个综合指标。e.g. 用户的标签分为基础标签和复合标签，基础标签就是单个用户属性来定义的(例如性别、婚否等)，复合标签则是考虑多个基础标签的组合(例如，某个典型的用户群体画像是：女性+单身+白领+一线城市)；e.g. 规划用户标签时，先用头脑风暴想出一批指标，然后进行归类、筛选、组合；e.g. 风控业务中累计坏账计提的计算，是将不同的逾期

刘思婵

2020-08-29

38.7939 2 0

层级1

要有结构化、系统化的思维，对影响因素自上而下的拆解和自下而上的组合。 5.1自上而下的拆解可以理解为“分级钻取”，如同金字塔结构一样，先从总体看到二级分支，然后再看更细的分支。e.g. 支付成功率的影响，可以对新老客、订单来源、支付方式、银行通道一层一层拆解，细化各个分支对整体变化的贡献率； e.g. 销售额 = 下单人数*客单价 (a)从登录到下单是层层转化后的，所以下单人数 = 访客人数

刘思婵

2020-08-29

38.5549 1 0

延时关联

延时关联现象的产生可能存在延迟效应，要考虑当前现象(环节)的前置的“因”和后置的“果”。e.g. 今天上线的营销方案可能在几天甚至几十天后才会有显著的效应，今天交易量上出现的波动也可能是因为一段时间前产品或者运营策略上有改动。

刘思婵

2020-08-29

44.4249 1 0

关联

看数据指标不要只看一个“点”，还要看一条“线”上的前后连接的环节，进而从“面”或“体”的角度去看整个大环境中都有哪些因素相互作用。对现象的分析可以参考简单的调节模型：其中：X是自变量，Y是因变量，M是调节变量。寻找关联关系时，不仅仅要找出对Y有直接影响的X(一个或者多个)，还要找出影响X对Y作用的调节因素M。关联也可以分为同时关联和延时关联两类。 4.1同时关联即多个因素(X)同时发生作用

刘思婵

2020-08-29

0.3600 1 0

纵向对比

纵向对比横向是和其他对象比较，纵向则是和自己的历史数据对比。常见的纵向对比有同比和环比，对比的周期根据实际情况可以按日、周、月、季、年等。注：一个常用的多组对比柱状图对比的时候，除了比较相对量，也要看绝对量，以合理地评估数据差异的大小。e.g. 0.5%的波动是大还是小，需要找参考点，如果历史波动最高也就0.1%，那么这个波动就很大。e.g. 公众号关注人数昨日环比增长20%(看着还不错)，

刘思婵

2020-08-29

44.4249 1 0

横向对比

和同类(竞品)比较，e.g. 对比不同品牌的女装的销售情况，不同销售渠道(地区)的交易情况；实验对比，设置实验组和对比组，对比两组或多组之间的差异，以确定人为干预(实验、方案)的效应。e.g. 比较不同的产品或运营方案的效果差异时，常采用AB Test，需要确保对比的两组或者多组在数量和结构上要具有可比性(e.g. 用户的来源、等级等需要匹配)；和整体比较，e.g. 华东地区的销售情况和全国总体销

刘思婵

2020-08-29

44.4249 1 0

对比

“痛苦来自比较之中”(没有比较就没有伤害)，其实幸福也来自比较之中，痛苦还是幸福，取决于选择的参照点是高于还是低于你。对比就是找一个参照点，来发现两个数据间的差异量Δ大小如何。对比可以分为两类：横向对比、纵向对比。

刘思婵

2020-08-29

38.5549 1 0

分类的规则

分类的规则大致有两类：按主体分类，e.g. 按社会关系模型，用户角色可以是父母、配偶、子女、朋友等；e.g. 按照群体划分，可以分为一般情况和特殊情况、二八原则等；按属性分类，依据主体(比如用户)的属性进行类别划分。e.g. 用户画像时可以考虑以下属性：1. 社会属性：收入水平、学历、职业、婚姻情况等2. 位置属性：居住地、工作地、从手机端还是PC端登录等3. 生物属性：年龄、性别、种族等4. 心

刘思婵

2020-08-29

0.0000 0 0

分类

互联网时代最核心的经营理念是深耕客群，通过差异化运营提升ARPU值(Average Revenue Per User，每用户平均收入)，而分类无疑是开展这项工作的重要前提。主要有4种分类方法：二分法，非此即彼，e.g. 网站新客、老客，贷款审批结果分为通过申请、拒绝申请等；并列分类，多个分类(子集)构成一个全集，e.g. 用户地域可以按省份划分，按年龄可以将用户分为70后、80后、90后、00后等

刘思婵

2020-08-29

0.0000 0 0

闭环迭代

一般的闭环流程包括3部分：事前方案规划，事中执行监控，事后复盘总结。e.g. 营销活动事前：确定目标，选定用户，制定方案，确定检验标准等；事中：实时数据监控(是否达到预期)，不同方案赛马，备用方案启用等；事后：对整个流程复盘，总结经验，CSS归类(Continue做先前已验证的正确的事，Stop做错误的事，Start做新的正确的事)常用的闭环迭代框架是PDCA，通过计划(P)、实施(D)、检查(C

刘思婵

2020-08-29

0.0000 0 0

分步转化

分步转化要连续完成多个步骤，有的人“浅尝辄止”，有的人“半途而废”，有的人则是“善始善终”。产品转化的每个步骤都会有用户流失，好比100个人参加有9个关卡的淘汰游戏，每个关卡会淘汰10个人，整个游戏最终会剩下10个获胜者，把这个游戏看作产品，那么该产品的全流程转化率就是10%(游戏获胜率)。 e.g. 常见的电商流程如下：注册-->登录-->浏览商品-->加购物车-->支付-->售后将上述步骤整理

刘思婵

2020-08-29

0.3600 1 0

CRISP-DM

1. 商业理解：确定业务目标，评估现有资源，确定分析目标，制定解决方案；2. 数据理解：数据采集，探索分析，数据质量验证；3. 数据准备：筛选数据，数据清洗，整合数据，变量衍生；4. 建立模型：模型选择，检验设计，模型建立，结果评估；5. 模型评估：分析结果和业务目标匹配度确认，检查1-4步的执行过程，确定下一步行动；6. 结果部署：规划部署方案、监控和维护方案，输出项目报告，项目复盘；e.g.

刘思婵

2020-08-29

38.5549 1 0

SEMMA范式

e.g. 常见的数据分析路径之一是SAS公司提出的SEMMA范式：1. Sample，数据抽样，保证数据的效度和信度；效度是指数据的准确性，也指选择的数据和分析目标及业务目标是吻合的；信度是指数据的稳定性，要保证样本数据有代表性，且在一定周期内不能有过大的波动(否则模型不稳定)；2. Explore，数据特征探索及预处理，e.g. 看数据的分布情况、对数据进行标准化等；3. Modefy，明确问题

刘思婵

2020-08-29

38.5549 1 0

销售额下降，怎么办？

问题：销售额下降，怎么办？（问题太大，方法也多：优化老客户，提升流量，提升转化率）答：了解涉及项目相关的所有业务部门的需求，逻辑，问题点拆分：销售额=流量*转化率*客单价待沟通部门：营销部门（活动），推广部门（流量），客服，售后，供应链 a.营销：精准营销（找到高价值客户），客户行为分析（响应效果），组合营销（购物篮） b.推广：竞价排名，买广告位，点击付费 c.退款和评论分析：优化产品，优

刘思婵

2020-08-18

24.5509 3 2

处理项目需求的基本思路

了解公司的背景和对接人员情况：公司的产品结构，市场环境，对接人的角色和权利等级沟通明确实际的项目需求（1）团队内部理解的项目需求（2）和业务方沟通需求：从业务的角度理解需求可能的解决方案（3）优化项目需求（4）核对项目需求 3. 确定分析工具和人员配置，进行数据分析 4. 撰写分析结论和方案

刘思婵

2020-08-18

24.5637 4 3

问题：流量急剧下降怎么分析？

问题：流量急剧下降怎么分析？答：先看行业大盘，看看是不是全行业如此查看数据是否异常，如果大家数据都是来自于第三方，和同行交流看是否有同样问题后台分析是主推宝贝单个下滑，还是全店宝贝同步下滑（1）单个宝贝下滑：先查看评价和库存，都没有问题就继续拆分，查看所有的流量入口a.单个入口下滑：针对这个入口补救，如果这个入口是搜索流量入口，查验是否有强大的竞争对手b.所有入口下滑：拆分这个宝贝每一天的数据（收

刘思婵

2020-08-18

24.5509 3 2

评分卡

评分卡构建流程

刘思婵

2020-08-16

69.2767 3 1

客户画像

客户画像分析流程

刘思婵

2020-08-16

69.1570 2 3

补充：二分-kMeans算法（二分K均值聚类）

基本思想首先二分-K均值是为了解决k-均值的用户自定义输入簇值k所延伸出来的自己判断k数目，其基本思路是：为了得到k个簇，将所有点的集合分裂成两个簇，从这些簇中选取一个继续分裂，如此下去，直到产生k个簇。比如要分成5个组，第一次分裂产生2个组，然后从这2个组中选一个目标函数产生的误差比较大的，分裂这个组产生2个，这样加上开始那1个就有3个组了，然后再从这3个组里选一个分裂，产生4个组，重复此过程，

刘思婵

2020-08-12

22.3108 3 1