gracejpw1117

离线数仓数据的计算执行周期

大规模的数据往往无法通过一次或一个时间段计算完成,比如我需要统计今年的总收入。那我们不希望把计算压力都集中在最后,要统计数据的时候才把全年数据进行计算。我们要把计算压力分摊开,比如我们如果能提前把每个月的数据计算好,统计年的时候一加就可以了。要用月度或者周数据时候,就把每日算好的数据进行汇总。所以作为离线数据我们计算的单位周期是日。也就是每日进行一次计算,这样当日用户可以查看到截至前一日的数据的计

gracejpw1117

2020-07-08

21.2097 2 0
  • 关注作者
  • 收藏

区分数据集市和数据仓库

数据集市:Date Market早在数据仓库诞生之初,一同并存的就有数据集市的概念。狭义上来讲数据集市,可以理解为数据仓库中为用户提供数据支撑的应用层,比如ADS层。广义上,数据集市,所有以主题划分的数据仓库中可供查阅的都可以成为数据集市,包括DWD,DWS,ADS层,甚至包括从hadoop中同步到RDS(关系型数据库服务(Relational Database Service))的数据都可以成为

gracejpw1117

2020-07-08

21.1955 1 1
  • 关注作者
  • 收藏

数仓分层结构图

ODS 层原始数据层,存放原始数据,直接加载原始日志、数据,数据保持原貌不做处理。DWD层明细数据层结构和粒度与ods层保持一致,对ods层数据进行清洗(去除空值,脏数据,超过极限范围的数据),也有公司叫dwi。DWS层服务数据层以dwd为基础,进行轻度汇总。一般聚集到以用户当日,设备当日,商家当日,商品当日等等的粒度。在这层通常会有以某一个维度为线索,组成跨主题的宽表,比如 一个用户的当日的签到

gracejpw1117

2020-07-08

21.1955 1 2
  • 关注作者
  • 收藏

为什么要对数仓进行分层

1 把复杂问题简单化将一个复杂的任务分解成多个步骤来完成,每一层只处理单一的步骤,比较简单和容易理解。2 数据结构清晰每一个数据分层都有它的作用域,这样我们在使用表的时候能更方便地定位和理解。便于维护数据的准确性,当数据出现问题之后,可以不用修复所有的数据,只需要从有问题的步骤开始修复。3 提高数据的复用性规范数据分层,通过的中间层数据,能够减少极大的重复计算,增加一次计算结果的复用性。4 隔离原

gracejpw1117

2020-07-08

21.1955 1 1
  • 关注作者
  • 收藏

数据仓库的概念

数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。分以下几层:ODS(原始数据):Operation Data StoreDWD(数据清洗/DWI) data warehou

gracejpw1117

2020-07-08

0.0000 0 3
  • 关注作者
  • 收藏

数据仓库的输入数据源和输出系统分别是什么?

输入系统:埋点产生的用户行为数据、JavaEE后台产生的业务数据、个别公司有爬虫数据。输出系统:报表系统、用户画像系统、推荐系统

gracejpw1117

2020-07-08

21.1955 1 1
  • 关注作者
  • 收藏

Flume Channel类型的选择

(1)file channel 数据存储于磁盘,优势:可靠性高;劣势:传输速度低 默认容量:100万event注意:FileChannel可以通过配置dataDirs指向多个路径,每个路径对应不同的硬盘,增大Flume吞吐量。(2)memory channel 数据存储于内存,优势:传输速度快;劣势:可靠性差 默认容量:100

gracejpw1117

2020-07-08

21.2429 2 1
  • 关注作者
  • 收藏

Flume拉取数据太慢怎么办

现象描述:采样通道:日志数据 -> flume -> kafka -> flink flume到kafka的数据处理时间是980毫秒;flink的数据处理时间是十几毫秒。解决方法:flume方面:flume数量不够:增加日志服务器以增加并行度;(1)自身:增加内存flume-env.sh 4-6g-Xmx与-Xms最好设置一致,减少内存抖动带来的性能影响,如果设置不一致容易导致频繁fullgc

gracejpw1117

2020-07-07

19.5422 4 2
  • 关注作者
  • 收藏

Flume之Taildir Source的特点

Flume Taildir Source的特点如下:(1)断点续传、多目录(2)哪个flume版本产生的?Apache1.7、CDH1.6(3)没有断点续传功能时怎么做的? 自定义(4)taildir挂了怎么办? 不会丢数:断点续传 重复数据:(5)怎么处理重复数据? 不处理:生产环境通常不处理,因为会影响传输效率; 处理: 自身:在taildirs

gracejpw1117

2020-07-07

19.5582 5 2
  • 关注作者
  • 收藏

flume中有几种可监控文件或目录的source

flume中有三种可监控文件或目录的source,分别是Exec Source、Spooling Directory Source和Taildir Source。Taildir Source是1.7版本的新特性,综合了Spooling Directory Source和Exec Source的优点。使用场景如下:Exec SourceExec Source可通过tail -f命令去tail住一个文

gracejpw1117

2020-07-07

19.5520 4 3
  • 关注作者
  • 收藏

Flume常用source类型

flume流动模型Flume常用source类型1、Avro 类型的Source:监听Avro 端口来接收外部avro客户端的事件流。avro-source接收到的是经过avro序列化后的数据,然后 反序列化数据继续传输。所以,源数据必须是经过avro序列化后的数据。利用 Avro source可以实现多级流动、扇出流、扇入流等效果。接收通过flume提供的avro客户端发送的日志信息。是flum

gracejpw1117

2020-07-07

19.5520 4 2
  • 关注作者
  • 收藏

Hive 时间戳和日期相互转换 from_unixtime和unix_timestamp

Hive 时间戳和日期相互转换:from_unixtime和unix_timestamp时间戳转日期select distinct from_unixtime(1441565203,‘yyyy/MM/dd HH:mm:ss’) from test_date;日期转时间戳select distinct unix_timestamp(‘20111207 13:01:03’) from test_dat

gracejpw1117

2020-07-07

0.0570 3 4
  • 关注作者
  • 收藏

什么是CAP法则?Zookeeper符合了这个法则的哪两个?

CAP原则又称CAP定理,指的是在一个分布式系统中,Consistency(一致性)、 Availability(可用性)、Partition tolerance(分区容错性),三者不可得兼。Zookeeper符合强一致性、高可用性。

gracejpw1117

2020-07-07

19.6355 5 1
  • 关注作者
  • 收藏

ZooKeeper常用命令

查看目录ls[zk: localhost:2181(CONNECTED) 3] ls /[jodis, zk, zookeeper, codis, codis3, worker_id_forever]创建目录create[zk: localhost:2181(CONNECTED) 4] create /zk_test hanchao_testCreated /zk_test获取数据get[zk:

gracejpw1117

2020-07-07

19.6162 4 1
  • 关注作者
  • 收藏

Zookeeper选举机制及部署台数

半数机制:2n+1,部署奇数台。10台服务器:3台20台服务器:5台100台服务器:11台ZK部署台数多的好处:提高可靠性;坏处:影响通信延时

gracejpw1117

2020-07-07

36.8472 6 1
  • 关注作者
  • 收藏

30台机器,跑mr任务的时候发现5个map任务全都分配到了同一台机器上

集群有30台机器,跑mr任务的时候发现5个map任务全都分配到了同一台机器上,这个可能是由于什么原因导致的吗?解决方案:yarn.scheduler.fair.assignmultiple 这个参数 默认是开的,需要关掉。将YARN配置中的yarn.scheduler.fair.assignmultiple参数设为false,或者手动设定yarn.scheduler.fair.max.assign

gracejpw1117

2020-07-07

19.6162 4 3
  • 关注作者
  • 收藏

MapReduce解决数据倾斜的方法

1)提前在map进行combine,减少传输的数据量在Mapper加上combiner相当于提前进行reduce,即把一个Mapper中的相同key进行了聚合,减少shuffle过程中传输的数据量,以及Reducer端的计算量。如果导致数据倾斜的key大量分布在不同的mapper的时候,这种方法就不是很有效了。2)导致数据倾斜的key 大量分布在不同的mapper(1)局部聚合加全局聚合。第一次在

gracejpw1117

2020-07-06

29.7303 3 2
  • 关注作者
  • 收藏

Hadoop宕机的处理方法

1)如果MR造成系统宕机。此时要控制Yarn同时运行的任务数,和每个任务申请的最大内存。调整参数:yarn.scheduler.maximum-allocation-mb(单个任务可申请的最多物理内存量,默认是8192MB)2)如果写入文件过快造成NameNode宕机。那么调高Kafka的存储大小,控制从Kafka到HDFS的写入速度。例如,可以调整Flume每批次拉取数据量的大小参数batchs

gracejpw1117

2020-07-06

55.7677 4 1
  • 关注作者
  • 收藏

Hadoop集群的基准测试

搭建完Hadoop集群后需要对HDFS读写性能和MR计算能力测试。测试jar包在hadoop的share文件夹下。应用举例:cd /root/app/hadoop-2.6.0-cdh5.15.1/share/hadoop/mapreducehadoop jar hadoop-mapreduce-examples-2.6.0-cdh5.15.1.jar pi 2 3 # 运行pi(3.14159

gracejpw1117

2020-07-06

29.4740 2 1
  • 关注作者
  • 收藏

Yarn调度器

1)Hadoop调度器重要分为三类:FIFO 、CS(Capacity Scheduler)(容量调度器)和FS(Fair Sceduler)(公平调度器)。Apache默认的资源调度器是容量调度器CS;CDH默认的资源调度器是公平调度器FS。2)区别:FIFO调度器:支持单队列 、先进先出,生产环境不会用。CS容量调度器:支持多队列,保证先进入的任务优先执行。FS公平调度器:支持多队列,保证每个

gracejpw1117

2020-07-06

29.5565 3 2
  • 关注作者
  • 收藏
<12345>