CDA持证人阿涛哥

CDA数据分析学习笔记之统计学抽样

抽样概述在统计学中,抽样(Sampling)是一种推论统计方法,它是指从目标总体(Population,或称为母体)中抽取一部分个体作为样本(Sample),通过观察样本的某些属性,依据所获得的数据对总体的数量特征得出具有一定可靠性的估计判断,从而达到对总体的认识。概率抽样方法简单随机抽样(simple random sampling),也叫纯随机抽样。从总体N个单位中随机地抽取n个单位作为样本,

0.0000 0 0
  • 关注作者
  • 收藏
CDA持证人阿涛哥

CDA数据分析L1学习之Excel多条件计数

1.问题:Excel函数求产地为广州或者福州,水果名为菠萝或香蕉,且单价大于等于3,且库存量大于20的水果品种个数。表的列名分别为 A 水果名 B 产地 C 单价 D 库存量2,回答2.1 方法一 SUMPRODUCT=SUMPRODUCT(((A2:A100="菠萝")+(A2:A100="香蕉"))*((B2:B100="广州")+(B2:B100="福州"))*(C2:C100>=3)*(

480.0000 1 0
  • 关注作者
  • 收藏
CDA持证人阿涛哥

CDA数据分析L1学习之SQL连接查询时建立连接的关键字段的个数

问题:SQL使用on关键字实现两表字段间的关联,在连接查询时建立连接的关键字段可以有( )个。A 一个B 两个C 多个D 一个或多个回答:D解析:通常使用ON关键字来指定两个表之间的连接条件,连接条件可以是两个表中的一个或多个字段。示例:假设我们有两个表,一个是“学生表”(students),学生姓名 学生ID 选修科目 另一个是“成绩表”(scores)学生ID 选修科目 成绩 ,两个

0.0000 0 0
  • 关注作者
  • 收藏
CDA持证人阿涛哥

数据分析AIPL模型

AIPL模型代表了一个用户从初识到忠诚的全过程A(Awereness):品牌认知人群。表示用户对品牌刚刚建立认知,了解到有这个品牌、是干啥用的,是消费者相对被动与品牌建立的接触。 例如:15天内消费者相对被动与品牌接触,包括: 曝光&点击(如被阿里妈妈广告曝光过或点击过阿里妈妈广告等)、浏览(如浏览过品牌旗舰店或品牌商品等)、观看(如观看过淘宝短视频或直播)I(Interest):品牌兴趣人

480.0000 1 0
  • 关注作者
  • 收藏
CDA持证人阿涛哥

CDA数据分析学习笔记 Mysql Error Code: 1046. No database selected 我如何自助探索解决问题?三大方法论法宝

CDA数据分析学习笔记 Mysql Error Code: 1046. No database selected 我如何探索解决此问题?三大方法论法宝示例问题:mysql报错提示 Error Code: 1046. No database selectedSelect the default DB to be used by double-clicking its name in the SCHE

21.8182 3 0
  • 关注作者
  • 收藏
CDA持证人阿涛哥

CDA Level 1 学习 在订单详情表表中, 订单的总平均金额(单均金额)=订单总金额/非重复订单数

CDA Level 1 在订单详情表表中, 订单的总平均金额(单均金额)=订单总金额/非重复订单数

501.8182 3 0
  • 关注作者
  • 收藏
CDA持证人阿涛哥

CDA LEVEL 1 学习笔记,在RFM用户分类中,在有限资金下为提高收入,应重点对哪一类用户进行营销?

1,问题在RFM用户分类中,在有限资金下为提高收入,应重点对哪一类用户进行营销?2,答案解析量化分析后 选 B一般通过提高M提高总收入的难度 >通过提高F提高总收入的难度 > 通过提高R提高总收入的难度

21.8182 1 0
  • 关注作者
  • 收藏
CDA持证人阿涛哥

ID-MAP 是什么?

ID-MAP 开发用户标签的时候,有项非常重要的内容——ID-MApping,即 把用户不同来源的身份标识通过数据手段识别为同一个主体。用户的属性、行为相关数据分散在不同的数据来源中,通过ID-MApping能够 把用户在不同场景下的行为串联起来,消除数据孤岛。用户与设备间可以是多对多关系。用户在未登录App的状态下,在App站内访问、搜索 相关内容时,记录的是设备id(即cookieid)相关的

21.8182 1 0
  • 关注作者
  • 收藏
CDA持证人阿涛哥

​分区存储

分区存储 如果将用户标签开发成一张大的宽表,在这张宽表下放几十种类 型标签,那么每天该画像宽表的ETL作业将会花费很长时间,而且不便 于向这张宽表中新增标签类型。要解决这种ETL花费时间较长的问题,可以从以下几个方面着手:·将数据分区存储,分别执行作业; ·标签脚本性能调优; ·基于一些标签共同的数据来源开发中间表。 下面介绍一种用户标签分表、分区存储的解决方案。 根据标签指标体系的人口属性、行为

21.8182 1 0
  • 关注作者
  • 收藏
CDA持证人阿涛哥

​累计快照事实表

累计快照事实表:用于查看不同事件之间的时间间隔,例如分析 用户从购买到支付的时长、从下单到订单完结的时长等。一般适用于 有明确时间周期的业务过程。

21.8182 1 0
  • 关注作者
  • 收藏
CDA持证人阿涛哥

周期快照事实表

·周期快照事实表:在一个确定的时间间隔内对业务状态进行度量。例如查看一个用户的近1年付款金额、近1年购物次数、近30日登录天数等。

21.8182 1 0
  • 关注作者
  • 收藏
CDA持证人阿涛哥

​ 用户性别

用户性别用户性别可细分为自然性别和购物性别两种。 自然性别是指用户的实际性别,一般可通过用户注册信息、填写 调查问卷表单等途径获得。该标签只需要从相应的表中抽取数据即 可,加工起来较为方便。 用户购物性别是指用户购买物品时的性别取向。例如,一位实际 性别为男性的用户,可能经常给妻子购买女性的衣物、包等商品,那 么这位用户的购物性别则是女性。

21.8182 1 0
  • 关注作者
  • 收藏
CDA持证人阿涛哥

​常见用户属性有哪些?

常见用户属性有哪些?用户属性是刻画用户的基础。常见用户属性指标包括:用户的年 龄、性别、安装时间、注册状态、城市、省份、活跃登录地、历史购 买状态、历史购买金额等。 用户属性维度的标签建成后可以提供客服电话服务,为运营人员 了解用户基本情况提供帮助。

21.8182 1 0
  • 关注作者
  • 收藏
CDA持证人阿涛哥

如何搭建一套用户画像方案?

搭建一套用户画像方案整体来说需要考虑8个模块的建设1·用户画像基础:需要了解、明确用户画像是什么,包含哪些模块,数据仓库架构是什么样子,开发流程,表结构设计,ETL设计等。 这些都是框架,大方向的规划,只有明确了方向后续才能做好项目的排期和人员投入预算。这对于评估每个开发阶段重要指标和关键产出非常重要。2·数据指标体系:根据业务线梳理,包括用户属性、用户行为、用户消费、风险控制等维度的指标体系。

480.0000 1 0
  • 关注作者
  • 收藏
CDA持证人阿涛哥

​规则类标签

规则类标签 该类标签基于用户行为及确定的规则产生。例如,对平台上“消费活跃”用户这一口径的定义为“近30天交易次数≥2”。在实际开发画像 的过程中,由于运营人员对业务更为熟悉,而数据人员对数据的结 构、分布、特征更为熟悉,因此规则类标签的规则由运营人员和数据人员共同协商确定;

21.8182 1 0
  • 关注作者
  • 收藏
CDA持证人阿涛哥

统计类标签

统计类标签 这类标签是最为基础也最为常见的标签类型,例如,对于某个用 户来说,其性别、年龄、城市、星座、近7日活跃时长、近7日活跃天 数、近7日活跃次数等字段可以从用户注册数据、用户访问、消费数据 中统计得出。该类标签构成了用户画像的基础。

21.8182 1 0
  • 关注作者
  • 收藏
CDA持证人阿涛哥

​用户画像的标签类型

标签类型 用户画像建模其实就是对用户“打标签”,从对用户打标签的方式 来看,一般分为3种类型:①统计类标签;②规则类 标签;③机器学习挖掘类标签。

21.8182 1 0
  • 关注作者
  • 收藏
CDA持证人阿涛哥

什么是用户画像?

用户画像,即用户信息标签化,通过收集用户的社会属性、消费习惯、偏好特征等各个维度的数据,进而对用户或者产品特征属性进行刻画,并对这些特征进行分析、统计,挖掘潜在价值信息,从而抽 象出用户的信息全貌,用户画像可看作企业应用大数据的根基,是定向广告投放与个性化推荐的前置条件,为数据驱动运营奠定了基础。由此看来,如何从海量数据中挖掘出有价值的信息越发重要

21.8182 1 0
  • 关注作者
  • 收藏
CDA持证人阿涛哥

CDA L1学习分享 BI多维数据透视分析时表的连接(赵大9000问题)

CDA L1 BI多维数据透视分析时表的连接方式(赵大9000问题)在power BI中,多维数据透视分析时,维度筛选度量的汇总方式有两种:第一种是传统的普通连接类型。在传统的普通连接情况下,是维度对度量直接合并同类项计算。例如下表中如果用订单提成表和订单表直接连接,以订单ID来作为连接字段,则计算出赵大的订单金额合计值为7000。第二种是跨表连接类型。在跨表连接的情况下,对维度下的所有连接用关键

480.0000 2 0
  • 关注作者
  • 收藏
mistook

预测类问题的模型选用

有这么一个销售商品(比如5KG大米),对于商品本身来说明确有周期性的复购(吃完了肯定还要买)。但作为一个销售者,目前已知有两个情况:1、下次大概率不会在你这里买(因为市面上有很多卖米的,竞争激烈);2、同个用户更换不同身份来购买,难以判别是否属于复购(明明是同一个家庭,上次是妈妈来买,而这次儿子来买,购买时也不会让你知道他们是同一家子人)。这种情况下用时间序列模型预测销量会不会效果差,该换什么模型

60.0000 1 1
  • 关注作者
  • 收藏

热门用户 换一批

本月PGC排行 总奖励

暂无数据