大数据-数据科学专业问答社区-CDA答疑社区

CDA数据科学研究院 CDA考试中心 CDA网校企业服务

CDA社区

CDA竞赛 CDA技术答疑 CDA俱乐部

关于CDA APP下载

免密码登录

提交首次登录验证后自动注册

展开 +

从今天开始不熬夜

hive中的排序

1.Order By：全局排序，只有一个 Reducer；当SQL一旦使用order by 进行排序，hive翻译后的MR只能是一个reduce,不能出现多个reduce，即使将reduce数量设置为多个.为了防止效率比较低，建议在执行order by 时候，一定要带上limit操作。2.Sort By：对于大规模的数据集 order by 的效率非常低。在很多情况下，并不需要全局排序，此

43.4504 2 0

从今天开始不熬夜

分桶表

分区提供一个隔离数据和优化查询的便利方式。不过，并非所有的数据集都可形成合理的分区。对于一张表或者分区，Hive 可以进一步组织成桶，也就是更为细粒度的数据范围划分,分桶是将数据集分解成更容易管理的若干部分的另一个技术,分区针对的是数据的存储路径；分桶针对的是数据文件。

68.1879 3 0

从今天开始不熬夜

分区表

分区表实际上就是对应一个 HDFS 文件系统上的独立的文件夹，该文件夹下是该分区所有的数据文件。Hive 中的分区就是分目录，把一个大的数据集根据业务需要分割成小的数据集。在查询时通过 WHERE 子句中的表达式选择查询所需要的指定的分区，这样的查询效率会提高很多。

68.1879 2 0

从今天开始不熬夜

元数据

元数据（Metadata），又称中介数据、中继数据，为描述数据的数据（data about data），主要是描述数据属性（property）的信息，用来支持如指示存储位置、历史数据、资源查找、文件记录等功能.元数据存储在关系型数据库中。如hive内置的Derby、或者第三方如MySQL等.

68.1879 2 0

从今天开始不熬夜

Hive和Hadoop关系

从功能来说，数据仓库软件，至少需要具备下述两种能力：从功能来说，数据仓库软件，至少需要具备下述两种能力：存储数据的能力、分析数据的能力Apache Hive作为一款大数据时代的数据仓库软件，当然也具备上述两种能力。只不过Hive并不是自己实现了上述两种能力，而是借助Hadoop。Hive利用HDFS存储数据，利用MapReduce查询分析数据.这样突然发现Hive没啥用，不过是套壳Hadoop

68.1879 2 0

从今天开始不熬夜

数仓概念

数据仓库（英语：Data Warehouse，简称数仓、DW）,是一个用于存储、分析、报告的数据系统。数据仓库的目的是构建面向分析的集成化数据环境，分析结果为企业提供决策支持（Decision Support）。数据仓库本身并不“生产”任何数据，其数据来源于不同外部系统.同时数据仓库自身也不需要“消费”任何的数据，其结果开放给各个外部应用使用

68.1879 2 0

从今天开始不熬夜

分布式计算概念

分布式计算是一种计算方法，和集中式计算是相对的。随着计算技术的发展，有些应用需要非常巨大的计算能力才能完成，如果采用集中式计算，需要耗费相当长的时间来完成。分布式计算将该应用分解成许多小的部分，分配给多台计算机进行处理。这样可以节约整体计算时间，大大提高计算效率。

96.4432 2 0

从今天开始不熬夜

Hadoop MapReduce

1.MapReduce的思想核心是“先分再合，分而治之”. 2.所谓“分而治之”就是把一个复杂的问题，按照一定的“分解”方法分为等价的规模较小的若干部分，然后逐个解决，分别找出各部分的结果，然后把各部分的结果组成整个问题的最终结果.3.这种思想来源于日常生活与工作时的经验。即使是发布过论文实现分布式计算的谷歌也只是实现了这种思想，而不是自己原创.

96.4432 2 0

从今天开始不熬夜

Hadoop特性优点

scalability(扩容能力):Hadoop是在可用的计算机集群间分配数据并完成计算任务的，这些集群可方便灵活的方式扩展到数以千计的节点。Economical(成本低):Hadoop集群允许通过部署普通廉价的机器组成集群来处理大数据，以至于成本很efficiency 低。看重的是集群整体能力。efficiency(效率高):通过并发数据，Hadoop可以在节点之间动态并行的移动数据，使

96.4432 2 0

从今天开始不熬夜

hadoop含义

狭义上Hadoop指的是Apache软件基金会的一款开源软件。广义上Hadoop指的是围绕Hadoop打造的大数据生态圈。

96.4432 2 0

从今天开始不熬夜

Hadoop核心组件

Hadoop HDFS（分布式文件存储系统）：解决海量数据存储 Hadoop YARN（集群资源管理和任务调度框架）：解决资源任务调度 Hadoop MapReduce（分布式计算框架）：解决海量数据计算

96.4432 2 0

从今天开始不熬夜

Hadoop

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统（ Distributed File System），其中一个组件是HDFS（Hadoop Distributed File System）。HDFS有高容错性的特点，并且设计用来部署在低廉的（low-c

96.4432 2 0

从今天开始不熬夜

支持SSH协议的软件

常见的支持SSH协议的软件有：FinalShell、Putty、xshell、secureCRT

60.0000 1 0

从今天开始不熬夜

SSH加密实现远程登录

企业中，Linux服务器通常位于远程机房中，用户不方便直接在机房操作；.可以使用支持SSH协议的软件，通过远程登录操作访问服务器，并且SSH协议可以实现对传输内容的加密.

60.0000 1 0

从今天开始不熬夜

SSH协议

SSH协议:SSH为Secure Shell的缩写,是一种网络安全协议，专为远程登录会话和其他网络服务提供安全性的协议。在Linux中，SSH的主要用途有：用户加密实现远程登录、服务器之间的免密登录。 SSH协议默认采用RSA算法实现非对称加密，需要两个密钥：公开密钥（public key:简称公钥）和私有密钥（private key:简称私钥）。公钥与私钥是一对，如果用公钥对数据进行加密

60.0000 1 0

从今天开始不熬夜

VMware

在PC上安装VMware Workstation虚拟机软件时,最好将软件安装在一个没有中文、没有空格的目录下.

60.0000 1 0

从今天开始不熬夜

FinalShell连接Linux

FinalShell连接Linux时,配置windows上的hosts映射文件,hosts文件路径：C:\Windows\System32\drivers\etc\hosts,将192.168.88.151 node1192.168.88.152 node2192.168.88.153 node3放入hosts时,一般会提示无管理员权限,无法更改,此时,将hosts文件拖到桌面在桌面上更改完

60.0000 1 0

CDA持证人阿涛哥

vmware永久激活码密钥分享

VMware Workstation Pro 15 激活许可证:UY758-0RXEQ-M81WP-8ZM7Z-Y3HDAVF750-4MX5Q-488DQ-9WZE9-ZY2D6UU54R-FVD91-488PP-7NNGC-ZFAX6YC74H-FGF92-081VZ-R5QNG-P6RY4YC34H-6WWDK-085MQ-JYPNX-NZRA2VMware Workstation16 密钥

141.6073 2 0

CDA持证人阿涛哥

Hadoop 三大核心组件

1,HDFS分布式文件存储系统2,Yarn 分布式集群资源调度管理系统3,Mapreduce 分布式数据处理系统

21.8193 2 0

CDA持证人阿涛哥

虚拟机点击镜像文件打不开?

下载新版虚拟机, 下载链接 https://customerconnect.vmware.com/cn/downloads/details?downloadGroup=WKST-PLAYER-1623-NEW&productId=1039&rPId=85397

109.6624 3 0

<123…75>

快速发帖我要提问

数据分析师求职、备考、笔试
刷题神器！

社区福利马上领

热门用户换一批

: 詹惠儿

: 赵娜0418

: shauna570392

: 啊啊啊啊啊吖

: liting李

: 读童话的狼

本月PGC排行

总奖励

暂无数据