数据科学专业问答社区，好文章，一字千金--CDA答疑社区

Hive SQL的分区表和分桶表

分区和分桶Hive将表划分为分区(partition)表和分桶(bucket)表。分区可以让数据的部分查询变得更快，也就是说，在加载数据的时候可以指定加载某一部分数据，并不是全量的数据。分桶表通常是在原始数据中加入一些额外的结构，这些结构可以用于高效的查询，例如，基于ID的分桶可以使得用户的查询非常的块。分区表　所谓的分区表，指的就是将数据按照表中的某一个字段进行统一归类，并存储在表中的不同的位置

gracejpw1117

2020-06-28

24.7611 5 3

阿里巴巴大数据计算平台Max Compute的机器学习算法

分类算法：LogisticRegression 、kNN 、GBDT 、DTC5.0 、RandomForest 、linearSVM 、nonlinearSVM 、NavieBayes 、Bayes 、Fisher判别、马氏距离判别、标签传播分裂等；回归算法：LinearRegression 、GBDT 、LASSO 、RidgeRegression 、Factorization Machine

gracejpw1117

2020-06-27

56.4697 3 2

Hadoop MapReduce过程详解：切片、分区、合并、归并、shuffle

MapReduce的过程：就是从输入杂乱、无规则的数据，通过自定义规则，切片，分区，在经过合并，归并操作，最后让其按规则输出，写入磁盘的过程。1.输入切片Split 输入切片（inputSpilt):在进入map之前，需要经过切片，在我们不设置切片的大小时候，有两种规则:1）默认切片大小=BlockSize，hadoop1.X是64M，hadoop2.X是128M;2）文件本身的大小;也可以自定义

gracejpw1117

2020-06-27

57.2946 4 5

skewjoin参数设置解决Hive由于join产生的数据倾斜问题

在Hive的数据处理过程中，由于join造成的倾斜，常见情况是不能做map join的两个表(能做map join的话基本上可以避免倾斜)，其中一个是行为表，另一个应该是属性表。比如我们有三个表，一个用户属性表users，一个商品属性表items，还有一个用户对商品的操作行为表日志表logs。假设现在需要将行为表关联用户表：select * from logs l join users u on

gracejpw1117

2020-06-25

54.2852 3 2

大数据分析平台的演进之路

1、石器时代大数据技术刚起步时平台架构很简单，数据流从日志通过RSYNC(linux系统下的数据镜像备份工具)流入到Hive，然后通过Hive SQL语句统计分析，结果导入到MySQL，最后形成报表展示。整个流程的驱动基于Shell脚本完成，报表系统和数据处理是利用Java实现。所有业务需求都是手工处理，所有报表都要写Java代码开发，这个给开发人员造成了很大的工作量，并且用户获取数据周期长，速度

gracejpw1117

2020-06-24

29.9282 3 3