大魔王泛泛

为什么要开启hive的metastore服务?

metastore可以去连接MySQL数据库来存取元数据。有了metastore服务,就可以有多个客户端同时连接,而且这些客户端不需要知道MySQL数据库的用户名和密码,只需要连接metastore 服务就行了 

大魔王泛泛

2020-02-20

27.2727 1 2
  • 关注作者
  • 收藏

如何开启hive元数据服务

service hive-metastore start

大魔王泛泛

2020-02-20

27.2727 1 1
  • 关注作者
  • 收藏

reduceBykey与groupByKey的区别

reduceByKey:reduceByKey会在发送结果至reduce之前会对每个mapper在本地进行merge 这样做会使数据量会大幅度减小,从而减小传输,保证reduce端能够更快的进行结果计算 groupByKey: groupByKey会对每一个RDD中的value值进行操作形成一个序列,此操作发生在reduce端,从而会将所有的数据通过网络进行传输,造成不必要的浪费 所以建议在进

大魔王泛泛

2020-02-20

0.0000 0 3
  • 关注作者
  • 收藏

Hive和Mysql的区别

1. hive是数据仓库其本身不存储和计算数据 可以理解为一个客户端工具, mysql是关系型数据库 可以存储数据 2. hive的容量大,依赖hdfs 3. hive的运算大数据量强,依赖mapreduce 4. hive初衷不支持delete和update,否则要修改配置文件,指定参数 5. mysql支持联机事务处理和软件系统交互,hive查询慢

大魔王泛泛

2020-02-20

0.0000 0 0
  • 关注作者
  • 收藏

Hive中的桶表

桶表就是将数据按照指定的字段进行分成多个桶中去,说白了就是将数据按照字段进行划分,可以将数据按照字段划分到多个文件当中去

大魔王泛泛

2020-02-20

0.0000 0 3
  • 关注作者
  • 收藏

Hive中的外部表

外部表因为是指定其他的hdfs路径的数据加载到表当中来,所以hive表会认为自己不完全独占这份数据,所以删除hive表的时候,数据仍然存放在hdfs当中,不会删掉。

大魔王泛泛

2020-02-20

0.0000 0 4
  • 关注作者
  • 收藏

Hive中的内部表

Hive 创建内部表时,会将数据移动到数据仓库指向的路径. 在删除表的时候,内部表的元数据和数据会被一起删除。

大魔王泛泛

2020-02-20

0.0000 0 2
  • 关注作者
  • 收藏

Hive中的元数据库

存储 Hive 中的数据的描述信息。Hive 将元数据存储在数据库中,如 mysql、(默认)derby。Hive 中的元数据包括表的名字,表的列和分区及其属性,表的属性(是否为外部表 等),表的数据所在目录等。

大魔王泛泛

2020-02-20

0.0000 0 2
  • 关注作者
  • 收藏

什么是 Thrift服务器?

Thrift 是 Facebook 开发的一个软件框架,可以用来进行可扩展且跨语言的服务的开发, Hive 集成了该服务,能让不同的编程语言调用 Hive 的接口

大魔王泛泛

2020-02-20

0.0000 0 1
  • 关注作者
  • 收藏

什么是HIVE?

Hive是基于Hadoop的一个数据仓库工具,它可以将结构化的数据文件映射成为一张数据库表,并提供类SQL的查询功能,并且可以将sql语句转化为MapReduce任务进行运行,Hive提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。

大魔王泛泛

2020-02-20

0.0000 0 3
  • 关注作者
  • 收藏

数据倾斜产生的原因有哪些?

1. key分布不均匀 2. map端数据倾斜,输入文件太多且大小不一 3. reduce端数据倾斜,分区器问题 4. 业务数据本身的特征

大魔王泛泛

2020-02-20

0.0000 0 1
  • 关注作者
  • 收藏

什么数据倾斜?

数据倾斜就是指我们在计算数据的时候,数据的分散度不够,导致大量的数据集中到一台或者几台机器上,这些数据的计算速度远远低于平均计算速度,导致整个计算过程很慢

大魔王泛泛

2020-02-20

0.0000 0 4
  • 关注作者
  • 收藏

HDFS的读写流程

1. 读文件流程 1)client端发送读文件请求给namenode,如果文件不存在,返回错误信息,否则,将该文件对应的block及其所在datanode位置发送给client 2) client收到文件位置信息后,与不同datanode建立socket连接并行获取数据。 2. 写文件流程 1)client端发送写文件请求,namenode检查文件是否存在,如果已存在,直接返回错误信息,否则,

大魔王泛泛

2020-02-20

0.0000 0 4
  • 关注作者
  • 收藏

HDFS上小文件过多带来的影响

1. 内存占用 每个小文件都会在namenode中存有相应的元数据信息.如果每一个文件的元数据信息占用内存100byte,那么有10万个小文件, 就占用了namenode10G的内存空间 2. 数据查询慢 小文件过多也会影响系统的查询速度 3. 浪费资源 在hadoop上进行数据计算时,每一个小文件都要对应一个task, 而每一个task启动阶段会耗费大量的时间在任务资源申请和释放上

大魔王泛泛

2020-02-20

0.0000 0 2
  • 关注作者
  • 收藏

什么是HDFS上的小文件?

HDFS存储文件时的最小单元叫做block,Hadoop1.x中 block大小为64MB,Hadoop2.x中 block大小为128M 小文件就是指,在HDFS上存储的文件大小远小于一个block块大小的文件

大魔王泛泛

2020-02-20

0.0000 0 2
  • 关注作者
  • 收藏

关于NameNode的一些重要文件说明

1. fsimage:存储命名空间(实际上就是目录和文件)的元数据信息; 2. edits:用来存储对命名空间操作的日志信息,实现namenode节点的恢复; 3. fstime:用来存储check point 的时间; 4. VERSION:存放namenode的版本信息;

大魔王泛泛

2020-02-20

0.0000 0 3
  • 关注作者
  • 收藏

启动集群时NameNode为什么会进入安全模式?

1. NameNode会检查DataNode的情况会占用一段时间 2. DataNode上的block有缺失

大魔王泛泛

2020-02-20

0.0000 0 2
  • 关注作者
  • 收藏

NameNode进入安全模式时怎样退出?

1. 自动退出:默认等待30秒NameNode自动退出安全模式 2.手动退出:hdfs dfsadmin -safemode leave

大魔王泛泛

2020-02-20

0.0000 0 2
  • 关注作者
  • 收藏

HDFS中的NameNode和DataNode的区别

NameNode:管理元数据信息 DataNode:存储数据

大魔王泛泛

2020-02-20

0.0000 0 2
  • 关注作者
  • 收藏
<1181920