文章目录
MapReduce计算框架
并行计算框架
一个大的任务拆分成多个小任务,将多个小任务分发到多个节点上。每个节点同时执行计算。
MapReduce核心思想
分而治之,先分后和:将一个大的、复杂的工作或任务,拆分成多个小的任务,并行处理,最终进行合并。
MapReduce由Map和Reduce组成
Map: 将数据进行拆分
Reduce:对数据进行汇总
Shuffle阶段4个步骤
第三步:对输出的key,value对进行分区。相同key的数据发送到同一个reduce里面去,相同key合并,value形成一个集合
第四步:对不同分区的数据按照相同的key进行排序
第五步:对分组后的数据进行规约(combine操作),降低数据的网络拷贝(可选步骤)
第六步:对排序后的额数据进行分组,分组的过程中,将相同key的value放到一个集合当中
MapReduce计算任务的步骤
第1步:InputFormat
InputFormat 到hdfs上读取数据
将数据传给Split
第1.1步:Split
Split将数据进行逻辑切分,
将数据传给RR
第1.2步:RR
RR:将传入的数据转换成一行一行的数据,输出行首字母偏移量和偏移量对应的数据
将数据传给Map
第2步:Map
Map:根据业务需求实现自定义代码
将数据传给Shuffle的partition
第3步:partition
partition:按照一定的分区规则,将key value的list进行分区。
将数据传给Shuffle的Sort
第4步:Sort
Sort:对分区内的数据进行排序
将数据传给Shuffle的combiner
第5步:combiner
combiner:对数据进行局部聚合。
将数据传给Shuffle的Group
第6步:Group
Group:将相同key的key提取出来作为唯一的key,
将相同key对应的value获取出来作为value的list
将数据传给Reduce
第7步:Reduce
Reduce:根据业务需求进行最终的合并汇总。
将数据传给outputFormat
第8步:outputFormat
outputFormat:将数据写入HDFS
MapReduce程序的输入:若是一个路径,那么程序会计算路径下的所有文件。
若是一个文件,那么只计算这个文件。
MapReduce程序的输出:输出的路径必须不能存在
Map的数量不能人为设置,Reduce的数量可以人为设置。
Reduce数量越多,计算速度越快。
Shuffle阶段的Partition分区算法
算法:对key 进行哈希,获取到一个哈希值,用这个哈希值与reducetask的数量取余。余几,这个数据就放在余数编号的partition中。
Split的逻辑切分
获取读取到的数据,对数据进行逻辑切分,切分的大小是128M.
这里的128 与HDFS数据块的128没有任何关系
HDFS 128 是存储层面的数据切分
split128 是计算层面的128,只不过数据恰好相等。
两个128相同的原因是,一个集成程序能够正好计算一个数据块。
Map的输出到内存
- Map的输出先写入环形缓冲区(默认大小100M-可以人为调整)(可以再输出的同时写入数据),当缓冲区内的数据达到阈值(默认0.8-可以人为调整)时,对数据进行flash。
- flash 出去的数据的数量达到一定量(默认4个)时,进行数据的合并。
Reduce数据读取
- Reduce 主动发出拷贝进程(默认5个copy进程)到Map端获取数据。
- 获取到数据后,将数据写入内存,当数据达到阈值,将数据flash出去。
- 当flash出去文件达到一定的量时,进行数据的合并。最终将数据发送给reduce
Map到reduce内存角度宏观流程
Map到reduce处理流程角度宏观步骤
Shuffle阶段
从Map的输出到reduce的输入
流程角度
内存角度