数据科学专业问答社区，好文章，一字千金--CDA答疑社区

Tensorflow介绍（三）

分布执行Tensorflow允许用户使用并行计算设备更快地执行操作。计算的节点或操作自动调度进行并行计算。这一切都发生在内部，例如在上图中，可以在CPU上调度操作c，在GPU上调度操作d。下图展示了两种分布式执行的过程：第一种是单个系统分布式执行，其中单个Tensorflow会话（将在稍后解释）创建单个worker，并且该worker负责在各设备上调度任务。在第二种系统下，有多个worker，他们

gracejpw1117

2020-07-11

0.3821 3 5

Tensorflow介绍（二）

计算图(流, flow)现在我们理解了Tensor的含义，是时候了解流(Flow)了。流是指一个计算图或简单的一个图，图不能形成环路，图中的每个节点代表一个操作，如加法、减法等。每个操作都会导致新的张量形成。上图展示了一个简单的计算图，所对应的表达式为：e = (a+b)x(b+1)计算图具有以下属性：· 叶子顶点或起始顶点始终是张量。意即，操作永远不会发生在图的开头，由此我们可以推断

gracejpw1117

2020-07-11

0.3821 3 1

Tensorflow介绍（一）

Tensorflow是广泛使用的实现机器学习以及其它涉及大量数学运算的算法库之一。Tensorflow由Google开发，是GitHub上最受欢迎的机器学习库之一。Google几乎在所有应用程序中都使用Tensorflow来实现机器学习。TensorFlow的核心组件是通过边遍历所有节点的计算图和张量。张量(Tensor)在数学上，张量是N维向量，这意味着张量可以用来表示N维数据集。上面的图有点复

gracejpw1117

2020-07-11

0.3821 3 0

数据中台之数据服务体系

前面利用数据汇聚、数据开发建设企业数据资产，利用数据管理展现企业的数据资产，但是并没有发挥数据的价值。数据的价值体现一定是在业务层面、即数据服务体系。就是把数据变为一种服务能力，通过数据服务让数据参与到业务，激活整个数据中台，数据服务体系是数据中台存在的价值所在。数据服务体系是基于公司自身的产品和业务的，比如以电商公司为例，数据服务就包括了：精准营销、用户画像、经营分析、可视化大屏等。

gracejpw1117

2020-07-10

24.3515 4 2

数据中台之数据质量和安全

数据质量和安全在很多架构图中归属于资产管理模块，但是笔者认为数据质量和安全应该是贯穿整个数据中台的。数据汇聚和数据开发的时候显然也应该考虑质量和安全问题，所以笔者倾向于将数据质量单独拿出来作为一个模块。数据质量我们会遇到无处不在的数据质量问题，包括业务系统脏数据、数据不一致不准确等。影响数据使用和上层决策。为什么会出现数据质量问题呢？大部分是如下几个原因开发代码的BUG数据源变更：比如由于MYSQ

gracejpw1117

2020-07-10

24.3632 4 1

数据中台之数据资产管理

有了数据汇聚、数据开发模块，中台已经具备传统数仓平台的基本能力，可以做数据的汇聚以及各种数据开发，就可以建立企业的数据资产体系。这里我有必要再次强调一遍：数据资产指的是有价值的数据。这个也正是资产管理模块需要去做的事情。如何让数据变的有价值？第一体现在数据本身上，比如需要保证数据的质量。第二体现在业务上，偏技术的数据体系业务人员是比较难理解的，因此资产管理需要用企业全员更好理解的方式，把企业的数据

gracejpw1117

2020-07-10

24.3632 4 5

数据中台之数据开发

数据开发可以理解为数据汇聚和数据资产的一个桥梁。何为数据资产？数据资产是有价值的数据。而数据汇聚是原始数据，业务人员一般是难以使用的。原始数据-->有价值的数据，是需要一个过程的。那么就是让数据开发模块来完成这个过程。数据开发是一整套数据加工及管控的工具，包括离线开发，智能调度，实时开发，人工智能等。举个例子，某公司想知道广告投放的效益，而原始数据包括埋点数据，用户注册数据，用户消费数据等，是不是

gracejpw1117

2020-07-10

24.3632 4 1

数据中台之数据汇聚

数据汇聚，首先必然要有数据来源，有了数据来源之后，需要确定采集工具，有了采集工具之后你还要确定存储位置。数据来源数据是数据中台的核心，所以数据汇聚无疑是数据中台的入口。企业中的数据来源极其多，但大都都离不开这几个方面：数据库，日志，前端埋点，爬虫系统等。数据库我们不用多说，例如通常用mysql作为业务库，存储业务一些关键指标，比如用户信息、订单信息。也会用到一些Nosql数据库，一般用于存储一些不

gracejpw1117

2020-07-10

24.3632 4 4

什么是数据中台

数据中台是在底层存储计算平台与上层的数据应用之间的一整套体系，屏蔽掉底层存储平台的计算技术复杂性，降低对技术人才的需求，可以让数据的使用成本更低。如果用三句话来概括数据中台的组成架构，那么一定是：通过数据中台的数据汇聚、数据开发模块建立企业数据资产。通过资产管理与治理、数据服务把数据资产变为数据服务能力，服务于企业业务。数据安全体系、数据运营体系保障数据中台可以长期健康、持续运转。总之，数据中台离

gracejpw1117

2020-07-10

0.0292 2 4

图论基础

1、图的定义图是一个顶点集合Vertex和一个顶点间关系的集合Edge组成，记G=(V,E) V(Vertex)：顶点的有限非空集合。 E(Edge)：顶点间关系的有限集合（边集）。存在一个结点v，可能含有多个前驱节点和后继结点。例如：2、无向图和有向图无向图在G=(V,E)中，如果对于任意的结点a,b∈V，当(a,b)∈E时，必有(b,a)∈E（即关系R对称），此图称为无向图。无向图中

gracejpw1117

2020-07-10

18.4267 2 3

Flink的执行图（ExecutionGraph）

由Flink程序直接映射成的数据流图是StreamGraph，也被称为逻辑流图，因为它们表示的是计算逻辑的高级视图。为了执行一个流处理程序，Flink需要将逻辑流图转换为物理数据流图（也叫执行图），详细说明程序的执行方式。 Flink 中的执行图可以分成四层：StreamGraph -> JobGraph -> ExecutionGraph -> 物理执行图。StreamGraph：是根据用户通过

gracejpw1117

2020-07-09

18.3890 2 1

Flink程序与数据流（DataFlow）

所有的Flink程序都是由三部分组成的： Source 、Transformation和Sink。Source负责读取数据源，Transformation利用各种算子进行处理加工，Sink负责输出。在运行时，Flink上运行的程序会被映射成“逻辑数据流”（dataflows），它包含了这三部分。每一个dataflow以一个或多个sources开始以一个或多个sinks结束。dataflow类似于

gracejpw1117

2020-07-09

18.3890 2 2

Flink的分层api

最底层级的抽象仅仅提供了有状态流，它将通过过程函数（Process Function）被嵌入到DataStream API中。底层过程函数（Process Function）与 DataStream API 相集成，使其可以对某些特定的操作进行底层的抽象，它允许用户可以自由地处理来自一个或多个数据流的事件，并使用一致的容错的状态。除此之外，用户可以注册事件时间并处理时间回调，从而使程序可以处理复

gracejpw1117

2020-07-09

18.3890 2 1

流与批的世界观

批处理的特点是有界、持久、大量，非常适合需要访问全套记录才能完成的计算工作，一般用于离线统计。流处理的特点是无界、实时, 无需针对整个数据集执行操作，而是对通过系统传输的每个数据项执行操作，一般用于实时统计。在spark的世界观中，一切都是由批次组成的，离线数据是一个大批次，而实时数据是由一个一个无限的小批次组成的。而在flink的世界观中，一切都是由流组成的，离线数据是有界限的流，实时数据是一

gracejpw1117

2020-07-09

18.3890 2 2

事件驱动型(Event-driven)

事件驱动型应用是一类具有状态的应用，它从一个或多个事件流提取数据，并根据到来的事件触发计算、状态更新或其他外部动作。比较典型的就是以kafka为代表的消息队列几乎都是事件驱动型应用。与之不同的就是SparkStreaming微批次，如图：事件驱动型：

gracejpw1117

2020-07-09

18.3890 2 1

初识Flink

“Apache Flink是为分布式、高性能、随时可用以及准确的流处理应用程序打造的开源流处理框架”。Apache Flink是一个框架和分布式处理引擎，用于对无界和有界数据流进行有状态计算。Flink被设计在所有常见的集群环境中运行，以内存执行速度和任意规模来执行计算。

gracejpw1117

2020-07-09

0.0145 1 2

Flink之Slot

Slot是对TaskManager的内存切分，所有Slot平均分配TaskManager的内存，每个Slot都有自己独立的内存，相互隔离。可以说Slot是Flink中的task的执行器，可以共享，即来自同一个Job的不同Task的Sub-Task（理解为Task的子集就行）进入同一个Slot，而且一个sub-task会以单独的线程来运行。这样一个Slot就可以跑玩一整个pipeline，Slot的

gracejpw1117

2020-07-09

0.0145 1 4

大数据平台+离线/实时数仓架构流程图

一张完整的大数据平台+离线/实时数仓架构流程图

gracejpw1117

2020-07-09

18.3890 2 2

Flink的JobManagers和TaskManager

与Hadoop、Yarn、Spark与K8S等分布式框架类似，Flink集群的软件架构也是经典的主从（Master/Worker）模式。Flink的主从部分分别为JobManager与TaskManager，两者的本质都是JVM进程，它们的具体职责为JobManagers：负责整个job的生命周期管理，包括资源申请，状态监控，协调、控制的执行过程如处理调度任务、保存checkpoint、容错等。T

gracejpw1117

2020-07-09

0.0145 1 4

实时数仓和离线数仓数据架构的联系和区别

从数据架构图来看，实时数仓的数据架构会跟离线数仓有很多类似的地方。比如分层结构；比如说 ODS 、DWD、DWS、ADS，它们命名的模式可能都是一样的。尽管如此，实时数仓和离线数仓还是有很多的区别的。跟离线数仓主要不一样的地方，就是实时数仓的层次更少一些。DWD层以我们目前建设离线数仓的经验来看，数仓的第二层远远不止这么简单，一般都会有一些轻度汇总层这样的概念，其实第二层会包含很多层。ADS层另外

gracejpw1117

2020-07-08

21.2509 3 2