分区和分桶Hive将表划分为分区(partition)表和分桶(bucket)表。分区可以让数据的部分查询变得更快,也就是说,在加载数据的时候可以指定加载某一部分数据,并不是全量的数据。分桶表通常是在原始数据中加入一些额外的结构,这些结构可以用于高效的查询,例如,基于ID的分桶可以使得用户的查询非常的块。分区表 所谓的分区表,指的就是将数据按照表中的某一个字段进行统一归类,并存储在表中的不同的位置
gracejpw1117
2020-06-28
分类算法:LogisticRegression 、kNN 、GBDT 、DTC5.0 、RandomForest 、linearSVM 、nonlinearSVM 、NavieBayes 、Bayes 、Fisher判别、马氏距离判别、标签传播分裂等;回归算法:LinearRegression 、GBDT 、LASSO 、RidgeRegression 、Factorization Machine
gracejpw1117
2020-06-27
MapReduce的过程:就是从输入杂乱、无规则的数据,通过自定义规则,切片,分区,在经过合并,归并操作,最后让其按规则输出,写入磁盘的过程。1.输入切片Split 输入切片(inputSpilt):在进入map之前,需要经过切片,在我们不设置切片的大小时候,有两种规则:1)默认切片大小=BlockSize,hadoop1.X是64M,hadoop2.X是128M;2)文件本身的大小;也可以自定义
gracejpw1117
2020-06-27
在Hive的数据处理过程中,由于join造成的倾斜,常见情况是不能做map join的两个表(能做map join的话基本上可以避免倾斜),其中一个是行为表,另一个应该是属性表。比如我们有三个表,一个用户属性表users,一个商品属性表items,还有一个用户对商品的操作行为表日志表logs。假设现在需要将行为表关联用户表:select * from logs l join users u on
gracejpw1117
2020-06-25
1、石器时代大数据技术刚起步时平台架构很简单,数据流从日志通过RSYNC(linux系统下的数据镜像备份工具)流入到Hive,然后通过Hive SQL语句统计分析,结果导入到MySQL,最后形成报表展示。整个流程的驱动基于Shell脚本完成,报表系统和数据处理是利用Java实现。所有业务需求都是手工处理,所有报表都要写Java代码开发,这个给开发人员造成了很大的工作量,并且用户获取数据周期长,速度
gracejpw1117
2020-06-24