数据科学专业问答社区，好文章，一字千金--CDA答疑社区

为什么要开启hive的metastore服务？

metastore可以去连接MySQL数据库来存取元数据。有了metastore服务，就可以有多个客户端同时连接，而且这些客户端不需要知道MySQL数据库的用户名和密码，只需要连接metastore 服务就行了

大魔王泛泛

2020-02-20

27.2727 1 2

如何开启hive元数据服务

service hive-metastore start

大魔王泛泛

2020-02-20

27.2727 1 1

reduceBykey与groupByKey的区别

reduceByKey：reduceByKey会在发送结果至reduce之前会对每个mapper在本地进行merge 这样做会使数据量会大幅度减小，从而减小传输，保证reduce端能够更快的进行结果计算 groupByKey： groupByKey会对每一个RDD中的value值进行操作形成一个序列，此操作发生在reduce端，从而会将所有的数据通过网络进行传输，造成不必要的浪费所以建议在进

大魔王泛泛

2020-02-20

0.0000 0 3

Hive和Mysql的区别

1. hive是数据仓库其本身不存储和计算数据可以理解为一个客户端工具, mysql是关系型数据库可以存储数据 2. hive的容量大,依赖hdfs 3. hive的运算大数据量强,依赖mapreduce 4. hive初衷不支持delete和update,否则要修改配置文件,指定参数 5. mysql支持联机事务处理和软件系统交互,hive查询慢

大魔王泛泛

2020-02-20

0.0000 0 0

Hive中的桶表

桶表就是将数据按照指定的字段进行分成多个桶中去，说白了就是将数据按照字段进行划分，可以将数据按照字段划分到多个文件当中去

大魔王泛泛

2020-02-20

0.0000 0 3

Hive中的外部表

外部表因为是指定其他的hdfs路径的数据加载到表当中来，所以hive表会认为自己不完全独占这份数据，所以删除hive表的时候，数据仍然存放在hdfs当中，不会删掉。

大魔王泛泛

2020-02-20

0.0000 0 4

Hive中的内部表

Hive 创建内部表时，会将数据移动到数据仓库指向的路径. 在删除表的时候，内部表的元数据和数据会被一起删除。

大魔王泛泛

2020-02-20

0.0000 0 2

Hive中的元数据库

存储 Hive 中的数据的描述信息。Hive 将元数据存储在数据库中，如 mysql、（默认）derby。Hive 中的元数据包括表的名字，表的列和分区及其属性，表的属性（是否为外部表等），表的数据所在目录等。

大魔王泛泛

2020-02-20

0.0000 0 2

什么是 Thrift服务器？

Thrift 是 Facebook 开发的一个软件框架，可以用来进行可扩展且跨语言的服务的开发， Hive 集成了该服务，能让不同的编程语言调用 Hive 的接口

大魔王泛泛

2020-02-20

0.0000 0 1

什么是HIVE？

Hive是基于Hadoop的一个数据仓库工具，它可以将结构化的数据文件映射成为一张数据库表，并提供类SQL的查询功能，并且可以将sql语句转化为MapReduce任务进行运行，Hive提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。

大魔王泛泛

2020-02-20

0.0000 0 3

数据倾斜产生的原因有哪些？

1. key分布不均匀 2. map端数据倾斜，输入文件太多且大小不一 3. reduce端数据倾斜，分区器问题 4. 业务数据本身的特征

大魔王泛泛

2020-02-20

0.0000 0 1

什么数据倾斜？

数据倾斜就是指我们在计算数据的时候，数据的分散度不够，导致大量的数据集中到一台或者几台机器上，这些数据的计算速度远远低于平均计算速度，导致整个计算过程很慢

大魔王泛泛

2020-02-20

0.0000 0 4

HDFS的读写流程

1. 读文件流程 1）client端发送读文件请求给namenode，如果文件不存在，返回错误信息，否则，将该文件对应的block及其所在datanode位置发送给client 2） client收到文件位置信息后，与不同datanode建立socket连接并行获取数据。 2. 写文件流程 1）client端发送写文件请求，namenode检查文件是否存在，如果已存在，直接返回错误信息，否则，

大魔王泛泛

2020-02-20

0.0000 0 4

HDFS上小文件过多带来的影响

1. 内存占用每个小文件都会在namenode中存有相应的元数据信息.如果每一个文件的元数据信息占用内存100byte,那么有10万个小文件, 就占用了namenode10G的内存空间 2. 数据查询慢小文件过多也会影响系统的查询速度 3. 浪费资源在hadoop上进行数据计算时，每一个小文件都要对应一个task, 而每一个task启动阶段会耗费大量的时间在任务资源申请和释放上

大魔王泛泛

2020-02-20

0.0000 0 2