大数据开发join的运行原理_大数据培训

基本描述

Hive的join过程，即hive将sql的join转化为mapreduce来执行的过程。关键词主要有三个：执行计划、Shuffle join和map join。

因此回答本问题时，可以先回答hive是怎样执行sql的，再对join的过程进行说明。

当遇到让你结合例子来说明join过程的问题时，大数据培训根据总结选择性回答即可。

总结回答

1 简单解释hive解析sql到mr

ok，首先Hive会根据DQL类SQL语句生成一个MapReduce作业。具体是通过Driver将SQL提交到编译器进行语法分析、解析和优化，最后生成一个MapReduce的执行计划，再根据执行计划，生成一个MapReduce作业。

2 概况join的类型

接着hive的join主要可以分为Shuffle join和map join。两者的区别是：Shuffle join是在reduce端完成的join，map join是在map端完成的join。

3 shuffle join

MR的Shuffle join的过程分为map、shuffle和reduce：

首先是map过程，会由map task 分别去读A表和B表。因为join要涉及两张表，因此要在 map 输出的时候进行标记。比如来自第一张表的输出 Value 就记录为 <1, X>，这里的 1 表示数据来自第一张表，key值为 join中on的关联条件；
接着是Shuffle过程，Shuffle会将相同的key分发到相同的reducer中；
最后是Reduce过程，在reduce端完成真正的join操作。根据表的标记对 Value 数据求笛卡尔积，用第一张表的每条记录和第二张表的每条记录连接，输出就是 join 的结果。

4 map join

Hive 默认的是map join。map join的过程只有map，其中reduce阶段在map中完成：

首先会把小表加载到缓存中。通过启动一个mapReduce的local task，这个task会去读取小表的数据，然后生成一堆hashtablefiles文件，接着把这个文件放到Distributed catch分布式缓存；
接着map task会去读取大表数据，读取过程中直接与缓存做join，没有shuffle过程。

文章来源于Diting