文章目录

MapReduce计算框架
并行计算框架
MapReduce核心思想
Shuffle阶段4个步骤
MapReduce计算任务的步骤
Shuffle阶段的Partition分区算法
Split的逻辑切分
Map的输出到内存
Reduce数据读取
Map到reduce内存角度宏观流程
Map到reduce处理流程角度宏观步骤
Shuffle阶段

MapReduce计算框架

在这里插入图片描述

并行计算框架

一个大的任务拆分成多个小任务，将多个小任务分发到多个节点上。每个节点同时执行计算。
在这里插入图片描述

MapReduce核心思想

分而治之，先分后和：将一个大的、复杂的工作或任务，拆分成多个小的任务，并行处理，最终进行合并。
MapReduce由Map和Reduce组成
Map: 将数据进行拆分
Reduce:对数据进行汇总
在这里插入图片描述

Shuffle阶段4个步骤

在这里插入图片描述

第三步：对输出的key，value对进行分区。相同key的数据发送到同一个reduce里面去，相同key合并，value形成一个集合

第四步：对不同分区的数据按照相同的key进行排序

第五步：对分组后的数据进行规约(combine操作)，降低数据的网络拷贝（可选步骤）

第六步：对排序后的额数据进行分组，分组的过程中，将相同key的value放到一个集合当中

MapReduce计算任务的步骤

在这里插入图片描述

第1步：InputFormat
      InputFormat 到hdfs上读取数据
      将数据传给Split
      
第1.1步：Split
      Split将数据进行逻辑切分，
      将数据传给RR
      
第1.2步：RR
      RR:将传入的数据转换成一行一行的数据，输出行首字母偏移量和偏移量对应的数据
      将数据传给Map
      
第2步：Map
      Map:根据业务需求实现自定义代码
      将数据传给Shuffle的partition
      
第3步：partition
      partition:按照一定的分区规则，将key value的list进行分区。
      将数据传给Shuffle的Sort
      
第4步：Sort
      Sort:对分区内的数据进行排序
      将数据传给Shuffle的combiner
      
第5步：combiner
      combiner:对数据进行局部聚合。
      将数据传给Shuffle的Group
      
第6步：Group
      Group:将相同key的key提取出来作为唯一的key,
      将相同key对应的value获取出来作为value的list
      将数据传给Reduce
      
第7步：Reduce
      Reduce：根据业务需求进行最终的合并汇总。
      将数据传给outputFormat
      
第8步：outputFormat
       outputFormat:将数据写入HDFS

 MapReduce程序的输入：若是一个路径，那么程序会计算路径下的所有文件。
                     若是一个文件，那么只计算这个文件。
 MapReduce程序的输出：输出的路径必须不能存在
 Map的数量不能人为设置，Reduce的数量可以人为设置。
 Reduce数量越多，计算速度越快。

Shuffle阶段的Partition分区算法

算法：对key 进行哈希，获取到一个哈希值，用这个哈希值与reducetask的数量取余。余几，这个数据就放在余数编号的partition中。

Split的逻辑切分

  获取读取到的数据，对数据进行逻辑切分，切分的大小是128M.
  这里的128 与HDFS数据块的128没有任何关系
  HDFS 128 是存储层面的数据切分
  split128 是计算层面的128，只不过数据恰好相等。
  两个128相同的原因是，一个集成程序能够正好计算一个数据块。

在这里插入图片描述

Map的输出到内存

Map的输出先写入环形缓冲区（默认大小100M-可以人为调整）（可以再输出的同时写入数据），当缓冲区内的数据达到阈值（默认0.8-可以人为调整）时，对数据进行flash。
flash 出去的数据的数量达到一定量（默认4个）时，进行数据的合并。

Reduce数据读取

Reduce 主动发出拷贝进程（默认5个copy进程）到Map端获取数据。
获取到数据后，将数据写入内存，当数据达到阈值，将数据flash出去。
当flash出去文件达到一定的量时，进行数据的合并。最终将数据发送给reduce

Map到reduce内存角度宏观流程

在这里插入图片描述

Map到reduce处理流程角度宏观步骤

在这里插入图片描述

Shuffle阶段

从Map的输出到reduce的输入
流程角度
在这里插入图片描述
内存角度

潘书鹏的BigData

发布了36 篇原创文章 · 获赞 246 · 访问量 21万+

私信关注

初学MapReduce

文章目录

MapReduce计算框架

并行计算框架

MapReduce核心思想

Shuffle阶段4个步骤

MapReduce计算任务的步骤

Shuffle阶段的Partition分区算法

Split的逻辑切分

Map的输出到内存

Reduce数据读取

Map到reduce内存角度宏观流程

Map到reduce处理流程角度宏观步骤

Shuffle阶段

猜你喜欢