数据科学专业问答社区，好文章，一字千金--CDA答疑社区

离线数仓数据的计算执行周期

大规模的数据往往无法通过一次或一个时间段计算完成，比如我需要统计今年的总收入。那我们不希望把计算压力都集中在最后，要统计数据的时候才把全年数据进行计算。我们要把计算压力分摊开，比如我们如果能提前把每个月的数据计算好，统计年的时候一加就可以了。要用月度或者周数据时候，就把每日算好的数据进行汇总。所以作为离线数据我们计算的单位周期是日。也就是每日进行一次计算，这样当日用户可以查看到截至前一日的数据的计

gracejpw1117

2020-07-08

21.2097 2 0

区分数据集市和数据仓库

数据集市：Date Market早在数据仓库诞生之初，一同并存的就有数据集市的概念。狭义上来讲数据集市，可以理解为数据仓库中为用户提供数据支撑的应用层，比如ADS层。广义上，数据集市，所有以主题划分的数据仓库中可供查阅的都可以成为数据集市，包括DWD,DWS,ADS层，甚至包括从hadoop中同步到RDS（关系型数据库服务(Relational Database Service)）的数据都可以成为

gracejpw1117

2020-07-08

21.1955 1 1

数仓分层结构图

ODS 层原始数据层，存放原始数据，直接加载原始日志、数据，数据保持原貌不做处理。DWD层明细数据层结构和粒度与ods层保持一致，对ods层数据进行清洗(去除空值，脏数据，超过极限范围的数据)，也有公司叫dwi。DWS层服务数据层以dwd为基础，进行轻度汇总。一般聚集到以用户当日，设备当日，商家当日，商品当日等等的粒度。在这层通常会有以某一个维度为线索，组成跨主题的宽表，比如一个用户的当日的签到

gracejpw1117

2020-07-08

21.1955 1 2

为什么要对数仓进行分层

1 把复杂问题简单化将一个复杂的任务分解成多个步骤来完成，每一层只处理单一的步骤，比较简单和容易理解。2 数据结构清晰每一个数据分层都有它的作用域，这样我们在使用表的时候能更方便地定位和理解。便于维护数据的准确性，当数据出现问题之后，可以不用修复所有的数据，只需要从有问题的步骤开始修复。3 提高数据的复用性规范数据分层，通过的中间层数据，能够减少极大的重复计算，增加一次计算结果的复用性。4 隔离原

gracejpw1117

2020-07-08

21.1955 1 1

数据仓库的概念

数据仓库，英文名称为Data Warehouse，可简写为DW或DWH。数据仓库，是为企业所有级别的决策制定过程，提供所有类型数据支持的战略集合。它是单个数据存储，出于分析性报告和决策支持目的而创建。为需要业务智能的企业，提供指导业务流程改进、监视时间、成本、质量以及控制。分以下几层：ODS（原始数据）：Operation Data StoreDWD(数据清洗/DWI) data warehou

gracejpw1117

2020-07-08

0.0000 0 3

数据仓库的输入数据源和输出系统分别是什么？

输入系统：埋点产生的用户行为数据、JavaEE后台产生的业务数据、个别公司有爬虫数据。输出系统：报表系统、用户画像系统、推荐系统

gracejpw1117

2020-07-08

21.1955 1 1

Flume Channel类型的选择

（1）file channel 数据存储于磁盘，优势：可靠性高；劣势：传输速度低默认容量：100万event注意：FileChannel可以通过配置dataDirs指向多个路径，每个路径对应不同的硬盘，增大Flume吞吐量。（2）memory channel 数据存储于内存，优势：传输速度快；劣势：可靠性差默认容量：100

gracejpw1117

2020-07-08

21.2429 2 1

Flume拉取数据太慢怎么办

现象描述：采样通道：日志数据 -> flume -> kafka -> flink flume到kafka的数据处理时间是980毫秒；flink的数据处理时间是十几毫秒。解决方法：flume方面：flume数量不够：增加日志服务器以增加并行度；（1）自身：增加内存flume-env.sh 4-6g-Xmx与-Xms最好设置一致，减少内存抖动带来的性能影响，如果设置不一致容易导致频繁fullgc

gracejpw1117

2020-07-07

19.5422 4 2

Flume之Taildir Source的特点

Flume Taildir Source的特点如下：（1）断点续传、多目录（2）哪个flume版本产生的？Apache1.7、CDH1.6（3）没有断点续传功能时怎么做的？自定义（4）taildir挂了怎么办？不会丢数：断点续传重复数据：（5）怎么处理重复数据？不处理：生产环境通常不处理，因为会影响传输效率；处理：自身：在taildirs

gracejpw1117

2020-07-07

19.5582 5 2

flume中有几种可监控文件或目录的source

flume中有三种可监控文件或目录的source，分别是Exec Source、Spooling Directory Source和Taildir Source。Taildir Source是1.7版本的新特性，综合了Spooling Directory Source和Exec Source的优点。使用场景如下：Exec SourceExec Source可通过tail -f命令去tail住一个文

gracejpw1117

2020-07-07

19.5520 4 3

Flume常用source类型

flume流动模型Flume常用source类型1、Avro 类型的Source：监听Avro 端口来接收外部avro客户端的事件流。avro-source接收到的是经过avro序列化后的数据，然后反序列化数据继续传输。所以，源数据必须是经过avro序列化后的数据。利用 Avro source可以实现多级流动、扇出流、扇入流等效果。接收通过flume提供的avro客户端发送的日志信息。是flum

gracejpw1117

2020-07-07

19.5520 4 2

Hive 时间戳和日期相互转换 from_unixtime和unix_timestamp

Hive 时间戳和日期相互转换：from_unixtime和unix_timestamp时间戳转日期select distinct from_unixtime(1441565203,‘yyyy/MM/dd HH:mm:ss’) from test_date;日期转时间戳select distinct unix_timestamp(‘20111207 13:01:03’) from test_dat

gracejpw1117

2020-07-07

0.0570 3 4

什么是CAP法则？Zookeeper符合了这个法则的哪两个？

CAP原则又称CAP定理,指的是在一个分布式系统中,Consistency(一致性)、 Availability(可用性)、Partition tolerance(分区容错性),三者不可得兼。Zookeeper符合强一致性、高可用性。

gracejpw1117

2020-07-07

19.6355 5 1

ZooKeeper常用命令

查看目录ls[zk: localhost:2181(CONNECTED) 3] ls /[jodis, zk, zookeeper, codis, codis3, worker_id_forever]创建目录create[zk: localhost:2181(CONNECTED) 4] create /zk_test hanchao_testCreated /zk_test获取数据get[zk:

gracejpw1117

2020-07-07

19.6162 4 1

Zookeeper选举机制及部署台数

半数机制：2n+1，部署奇数台。10台服务器：3台20台服务器：5台100台服务器：11台ZK部署台数多的好处：提高可靠性；坏处：影响通信延时

gracejpw1117

2020-07-07

36.8472 6 1

30台机器，跑mr任务的时候发现5个map任务全都分配到了同一台机器上

集群有30台机器，跑mr任务的时候发现5个map任务全都分配到了同一台机器上，这个可能是由于什么原因导致的吗？解决方案：yarn.scheduler.fair.assignmultiple 这个参数默认是开的，需要关掉。将YARN配置中的yarn.scheduler.fair.assignmultiple参数设为false，或者手动设定yarn.scheduler.fair.max.assign

gracejpw1117

2020-07-07

19.6162 4 3

MapReduce解决数据倾斜的方法

1）提前在map进行combine，减少传输的数据量在Mapper加上combiner相当于提前进行reduce，即把一个Mapper中的相同key进行了聚合，减少shuffle过程中传输的数据量，以及Reducer端的计算量。如果导致数据倾斜的key大量分布在不同的mapper的时候，这种方法就不是很有效了。2）导致数据倾斜的key 大量分布在不同的mapper（1）局部聚合加全局聚合。第一次在

gracejpw1117

2020-07-06

29.7303 3 2

Hadoop宕机的处理方法

1）如果MR造成系统宕机。此时要控制Yarn同时运行的任务数，和每个任务申请的最大内存。调整参数：yarn.scheduler.maximum-allocation-mb（单个任务可申请的最多物理内存量，默认是8192MB）2）如果写入文件过快造成NameNode宕机。那么调高Kafka的存储大小，控制从Kafka到HDFS的写入速度。例如，可以调整Flume每批次拉取数据量的大小参数batchs

gracejpw1117

2020-07-06

55.7677 4 1

Hadoop集群的基准测试

搭建完Hadoop集群后需要对HDFS读写性能和MR计算能力测试。测试jar包在hadoop的share文件夹下。应用举例：cd /root/app/hadoop-2.6.0-cdh5.15.1/share/hadoop/mapreducehadoop jar hadoop-mapreduce-examples-2.6.0-cdh5.15.1.jar pi 2 3 # 运行pi(3.14159

gracejpw1117

2020-07-06

29.4740 2 1

Yarn调度器

1）Hadoop调度器重要分为三类：FIFO 、CS(Capacity Scheduler)（容量调度器）和FS(Fair Sceduler)（公平调度器）。Apache默认的资源调度器是容量调度器CS；CDH默认的资源调度器是公平调度器FS。2）区别：FIFO调度器：支持单队列、先进先出,生产环境不会用。CS容量调度器：支持多队列，保证先进入的任务优先执行。FS公平调度器：支持多队列，保证每个

gracejpw1117

2020-07-06

29.5565 3 2