Hadoop_17_MapRduce_MapTask并行度的决定机制 - 代码天地

Hadoop_17_MapRduce_MapTask并行度的决定机制

其他 2018-06-21 12:14:47 阅读次数: 3

　　MapTask的并行度决定map阶段的任务处理并发度，进而影响到整个job的处理速度那么，mapTask并行实例是否越多

越好呢？其并行度又是如何决定呢？Mapper数量由输入文件的数目、大小及配置参数决定；　

　　MapReduce将作业的整个运行过程分为两个阶段：Map阶段Reduce阶段。

　　Map阶段由一定数量的Map Task实例组成，例如：

输入数据格式解析：InputFormat
输入数据处理：Mapper
本地规约：Combiner（相当于local reducer，可选）
数据分组：Partitioner

　　Reduce阶段由一定数量的Reduce Task实例组成，例如：

数据远程拷贝
数据按照key排序
数据处理：Reducer
数据输出格式：OutputFormat

1.MapReduce的Map阶段：

1.1.从HDFS读取数据：

　 一个job的map阶段并行度由客户端在提交job时决定

　　而客户端对map阶段并行度的规划的基本逻辑为：将待处理数据执行逻辑切片（即按照一个特定切片大小，将待处理数据

划分成逻辑上的多个split），然后每一个split分配一个MapTask并行实例处理，即就是到底启动多少个MapTask实例就意味着将

数据切成多少份(一个切片对应一个MapTask实例)

　　切片逻辑及形成的切片规划描述文件，由 FileInputFormat 实现类的getSplits()方法完成：流程如下：

　　

　　

　　

　　

　　

　　

　　

　　

　　

猜你喜欢

转载自www.cnblogs.com/yaboya/p/9208259.html

Hadoop_17_MapRduce_MapTask并行度的决定机制

Hadoop中MapTask的并行度的决定机制

Hadoop数据切片与MapTask并行度决定机制

切片与MapTask并行度决定机制

切片与MapTask并行决定机制

MapReduce并行度决定机制

maptask的并行度

B05 - 050、MapTask并行度机制

3.1.2 HADOOP框架（MapReduce编程框架，序列化Writeable接口，Maptask并行度，ReduceTadk并行度，shuffle机制，排序，join,自定义读取、输出）

Hadoop-MapReduc入门（代码编写流程，运行流程，并行度决定机制）

maptask和reduceta的并行度

Hadoop中maptask数量的决定因素

Hadoop_18_MapRduce的shuffle机制

【大数据】MapTask并行度和切片机制

MapReduce切片机制以及maptask和reducetask并行度设置

hadoop maptask

Hadoop | MapReduce的并行度

MapReduce并行度机制

Hadoop之 MapReduce （MapTask 和 ReduceTask 工作机制详解）

Hadoop MapTask / ReducerTask

关于hadoop的maptask数量

MapTask工作机制

MapTask运行机制

MapReduce的MapTask执行机制

关于Hadoop读文件的并行度

Hadoop-MapReduce-详细解析MapTask和ReduceTask工作机制-连载中

Hadoop之MapReduce的MapTask详解

【大数据】MapTask工作机制

MapTask工作机制图解

Hadoop_15_MapRduce 示例编写及编程规范

今日推荐

周排行

Leetcode简单题61~80

解决zookeeper磁盘IO高的问题

多线程相关方法详解

Maven-setting.xml文件详解

Maven 项目的 classpath 理解

渊亭科技大数据笔试题

配置JVM内存分配

计算机网络个人学习笔记（三）网络层：第三部分连载

js中两个等号(==)和三个等号(===)的区别

用C程序自动打开电脑上的程序

每日归档

更多

2024-09-18(0)

2024-09-17(0)

2024-09-16(0)

2024-09-15(0)

2024-09-14(0)

2024-09-13(0)

2024-09-12(0)

2024-09-11(0)

2024-09-10(0)

2024-09-09(0)