MapRduce-单词统计的执行流程 - 代码天地

MapRduce-单词统计的执行流程

其他 2021-12-15 10:06:31 阅读次数: 0

分配资源阶段

发起一个提交作业的请求，到达resourcemanager
nodemanager想resourcemanager汇报自己的状态（带宽，内存，cpu...）
客户端进行规划，在job.xml中，进行切片。
resourcemanager 管理很多的nodemanager 为其分配资源（带宽，内存，cpu...）
分配完资源之后，客户端与nodemanager打交道，把自己的jar包、切片分发给nodemangaer，datamanager就有了客户端的数据。
客户端就知道运行多少个maptask ，有多少个切片就有多少个maptask ，多少个切片也就是多少个block的数量。（1个线程池执行一个maptask），多少个block就有多少个MapReduce，多少个task就有多少个分区。
看数据在那个分区中进行计算，通过单词的hash值/分区的个数，来判断该数据在那个分区中计算

Map阶段

对数据进行分区，并分别对每个分区进行map映射(map<data,1>)
对分区的map进行排序

Map->Reduce阶段（shuffle洗牌过程）

这个阶段是效率最慢的，需要通过网络拉取将各个datanode分区中的数据，分别对应到相应的reduce中。这就是mapreduce慢的原因。

Reduce阶段

将reduce中的数据进行排序
对map中的key进行分组 (map<data,[1,1,1,1]>)
调用自己的方法,Reduce.reduce(Text,Iterable<IntWritable>) (map<data,4>)

输出阶段

调用TextOutPutFormat,将输出结果写到hdfs中。

猜你喜欢

转载自blog.csdn.net/wt5264/article/details/121702714

MapRduce-单词统计的执行流程

地统计执行流程

统计单词

单词统计

Hadoop_16_MapRduce_案例2_实现用户手机流量统计

单词识别(统计单词个数)

hadoop 单词统计 java

统计单词出现频率

单词数目统计

1400：统计单词数

1058. 统计单词

文本单词统计

统计单词感想

统计单词频率

Storm实现单词统计

单词统计作业

字母、单词统计

统计单词个数

素数，回文，统计单词

MapReduce实现单词统计

spark wordcount 单词统计

统计单词数

C语言：单词统计

单词统计（scala程序）

单词统计 SDUT

统计单词数目

1809: 统计单词

单词数统计

1133: 单词个数统计

1750: 统计单词数

今日推荐

周排行

Leetcode简单题61~80

解决zookeeper磁盘IO高的问题

多线程相关方法详解

Maven-setting.xml文件详解

Maven 项目的 classpath 理解

渊亭科技大数据笔试题

配置JVM内存分配

计算机网络个人学习笔记（三）网络层：第三部分连载

js中两个等号(==)和三个等号(===)的区别

用C程序自动打开电脑上的程序

每日归档

更多

2024-09-18(0)

2024-09-17(0)

2024-09-16(0)

2024-09-15(0)

2024-09-14(0)

2024-09-13(0)

2024-09-12(0)

2024-09-11(0)

2024-09-10(0)

2024-09-09(0)