metastore可以去连接MySQL数据库来存取元数据。有了metastore服务,就可以有多个客户端同时连接,而且这些客户端不需要知道MySQL数据库的用户名和密码,只需要连接metastore 服务就行了
大魔王泛泛
2020-02-20
reduceByKey:reduceByKey会在发送结果至reduce之前会对每个mapper在本地进行merge 这样做会使数据量会大幅度减小,从而减小传输,保证reduce端能够更快的进行结果计算 groupByKey: groupByKey会对每一个RDD中的value值进行操作形成一个序列,此操作发生在reduce端,从而会将所有的数据通过网络进行传输,造成不必要的浪费 所以建议在进
大魔王泛泛
2020-02-20
1. hive是数据仓库其本身不存储和计算数据 可以理解为一个客户端工具, mysql是关系型数据库 可以存储数据 2. hive的容量大,依赖hdfs 3. hive的运算大数据量强,依赖mapreduce 4. hive初衷不支持delete和update,否则要修改配置文件,指定参数 5. mysql支持联机事务处理和软件系统交互,hive查询慢
大魔王泛泛
2020-02-20
外部表因为是指定其他的hdfs路径的数据加载到表当中来,所以hive表会认为自己不完全独占这份数据,所以删除hive表的时候,数据仍然存放在hdfs当中,不会删掉。
大魔王泛泛
2020-02-20
存储 Hive 中的数据的描述信息。Hive 将元数据存储在数据库中,如 mysql、(默认)derby。Hive 中的元数据包括表的名字,表的列和分区及其属性,表的属性(是否为外部表 等),表的数据所在目录等。
大魔王泛泛
2020-02-20
Thrift 是 Facebook 开发的一个软件框架,可以用来进行可扩展且跨语言的服务的开发, Hive 集成了该服务,能让不同的编程语言调用 Hive 的接口
大魔王泛泛
2020-02-20
Hive是基于Hadoop的一个数据仓库工具,它可以将结构化的数据文件映射成为一张数据库表,并提供类SQL的查询功能,并且可以将sql语句转化为MapReduce任务进行运行,Hive提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。
大魔王泛泛
2020-02-20
1. key分布不均匀 2. map端数据倾斜,输入文件太多且大小不一 3. reduce端数据倾斜,分区器问题 4. 业务数据本身的特征
大魔王泛泛
2020-02-20
数据倾斜就是指我们在计算数据的时候,数据的分散度不够,导致大量的数据集中到一台或者几台机器上,这些数据的计算速度远远低于平均计算速度,导致整个计算过程很慢
大魔王泛泛
2020-02-20
1. 读文件流程 1)client端发送读文件请求给namenode,如果文件不存在,返回错误信息,否则,将该文件对应的block及其所在datanode位置发送给client 2) client收到文件位置信息后,与不同datanode建立socket连接并行获取数据。 2. 写文件流程 1)client端发送写文件请求,namenode检查文件是否存在,如果已存在,直接返回错误信息,否则,
大魔王泛泛
2020-02-20
1. 内存占用 每个小文件都会在namenode中存有相应的元数据信息.如果每一个文件的元数据信息占用内存100byte,那么有10万个小文件, 就占用了namenode10G的内存空间 2. 数据查询慢 小文件过多也会影响系统的查询速度 3. 浪费资源 在hadoop上进行数据计算时,每一个小文件都要对应一个task, 而每一个task启动阶段会耗费大量的时间在任务资源申请和释放上
大魔王泛泛
2020-02-20
HDFS存储文件时的最小单元叫做block,Hadoop1.x中 block大小为64MB,Hadoop2.x中 block大小为128M 小文件就是指,在HDFS上存储的文件大小远小于一个block块大小的文件
大魔王泛泛
2020-02-20
1. fsimage:存储命名空间(实际上就是目录和文件)的元数据信息; 2. edits:用来存储对命名空间操作的日志信息,实现namenode节点的恢复; 3. fstime:用来存储check point 的时间; 4. VERSION:存放namenode的版本信息;
大魔王泛泛
2020-02-20
1. 自动退出:默认等待30秒NameNode自动退出安全模式 2.手动退出:hdfs dfsadmin -safemode leave
大魔王泛泛
2020-02-20