gracejpw1117

Hive SQL的分区表和分桶表

分区和分桶Hive将表划分为分区(partition)表和分桶(bucket)表。分区可以让数据的部分查询变得更快,也就是说,在加载数据的时候可以指定加载某一部分数据,并不是全量的数据。分桶表通常是在原始数据中加入一些额外的结构,这些结构可以用于高效的查询,例如,基于ID的分桶可以使得用户的查询非常的块。分区表 所谓的分区表,指的就是将数据按照表中的某一个字段进行统一归类,并存储在表中的不同的位置

gracejpw1117

2020-06-28

24.7611 5 3
  • 关注作者
  • 收藏

阿里巴巴大数据计算平台Max Compute的机器学习算法

分类算法:LogisticRegression 、kNN 、GBDT 、DTC5.0 、RandomForest 、linearSVM 、nonlinearSVM 、NavieBayes 、Bayes 、Fisher判别、马氏距离判别、标签传播分裂等;回归算法:LinearRegression 、GBDT 、LASSO 、RidgeRegression 、Factorization Machine

gracejpw1117

2020-06-27

56.4697 3 2
  • 关注作者
  • 收藏

Hadoop MapReduce过程详解:切片、分区、合并、归并、shuffle

MapReduce的过程:就是从输入杂乱、无规则的数据,通过自定义规则,切片,分区,在经过合并,归并操作,最后让其按规则输出,写入磁盘的过程。1.输入切片Split 输入切片(inputSpilt):在进入map之前,需要经过切片,在我们不设置切片的大小时候,有两种规则:1)默认切片大小=BlockSize,hadoop1.X是64M,hadoop2.X是128M;2)文件本身的大小;也可以自定义

gracejpw1117

2020-06-27

57.2946 4 5
  • 关注作者
  • 收藏

skewjoin参数设置解决Hive由于join产生的数据倾斜问题

在Hive的数据处理过程中,由于join造成的倾斜,常见情况是不能做map join的两个表(能做map join的话基本上可以避免倾斜),其中一个是行为表,另一个应该是属性表。比如我们有三个表,一个用户属性表users,一个商品属性表items,还有一个用户对商品的操作行为表日志表logs。假设现在需要将行为表关联用户表:select * from logs l join users u on

gracejpw1117

2020-06-25

54.2852 3 2
  • 关注作者
  • 收藏

大数据分析平台的演进之路

1、石器时代大数据技术刚起步时平台架构很简单,数据流从日志通过RSYNC(linux系统下的数据镜像备份工具)流入到Hive,然后通过Hive SQL语句统计分析,结果导入到MySQL,最后形成报表展示。整个流程的驱动基于Shell脚本完成,报表系统和数据处理是利用Java实现。所有业务需求都是手工处理,所有报表都要写Java代码开发,这个给开发人员造成了很大的工作量,并且用户获取数据周期长,速度

gracejpw1117

2020-06-24

29.9282 3 3
  • 关注作者
  • 收藏
<1345