第2节 mapreduce深入学习：7、MapReduce的规约过程combiner - 代码天地

第2节 mapreduce深入学习：7、MapReduce的规约过程combiner

其他 2019-06-14 21:38:10 阅读次数: 0

第2节 mapreduce深入学习：7、MapReduce的规约过程combiner

每一个 map 都可能会产生大量的本地输出，Combiner 的作用就是对 map 端的输出先做一次合并，以减少在 map 和 reduce 节点之间的数据传输量，以提高网络IO 性能，是 MapReduce 的一种优化手段之一。

 combiner 是 MR 程序中 Mapper 和 Reducer 之外的一种组件

 combiner 组件的父类就是 Reducer

 combiner 和 reducer 的区别在于运行的位置：

Combiner 是在每一个 maptask 所在的节点运行 Reducer 是接收全局所有 Mapper 的输出结果；

 combiner 的意义就是对每一个 maptask 的输出进行局部汇总，以减小网络传输量

 具体实现步骤：

1、自定义一个 combiner 继承 Reducer，重写 reduce 方法

2、在 job 中设置： job.setCombinerClass(CustomCombiner.class)

combiner 能够应用的前提是不能影响最终的业务逻辑，而且，combiner 的输出 kv 应该跟 reducer 的输入 kv 类型要对应起来。

代码：

SortMain：
添加如下代码

//设置第五步：规约
job.setCombinerClass(SortCombiner.class);

SortCombiner：

package cn.itcast.demo2.sort;

import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;
/**
 * 注意自定义combiner的话，输入类型和输出类型，都是key2  value2
 * 作用：减少输出到reduce的key2的个数
 */
public class SortCombiner extends Reducer<PairSort,Text,PairSort,Text> {
    @Override
    protected void reduce(PairSort key, Iterable<Text> values, Context context) throws IOException, InterruptedException {
        //这里面写规约的逻辑
        for (Text value:values){
            context.write(key,value);
        }
    }
}

猜你喜欢

转载自www.cnblogs.com/mediocreWorld/p/11025441.html

第2节 mapreduce深入学习：7、MapReduce的规约过程combiner

第2节 mapreduce深入学习：13、mapreduce的整个运行过程（多看几遍）

第2节 mapreduce深入学习：4, 5

第2节 mapreduce深入学习：6、MapReduce当中的计数器

第2节 mapreduce深入学习：14、mapreduce数据压缩-使用snappy进行压缩

第2节 mapreduce深入学习：9、手机上行流量排序

第2节 mapreduce深入学习：11、maptask运行机制（多看几遍）

第2节 mapreduce深入学习：8、手机流量汇总求和

第2节 mapreduce深入学习：10、手机号码进行分区

第2节 mapreduce深入学习：16、map端的join算法的实现

python学习感悟第2节

机器学习第5章第2节 : LMS算法

《机器学习基石》第2节课学习笔记

第3节 mapreduce高级：2、3、课程大纲&共同好友求取步骤一、二

[AndEngine学习] 第2节 AndEngine实战HelloWorld

Python学习第一天-第2节

Spring学习第2节 -- bean的scope和创建对象

Java学习第二节第2章

Hadoop深入学习：MapReduce

第2课第2节_Java面向对象编程_封装性_P【学习笔记】

Hadoop深入学习：MapReduce的Shuffle过程详解

MapReduce-Combiner规约-原理分析

Netty源码分析第2章(NioEventLoop)---->第7节: 处理IO事件

Netty源码分析第7章(编码器和写数据)---->第2节: MessageToByteEncoder

SwiftUI从入门到实战第2章第7节：TabView

第2课第1节_Java面向对象编程_类的引入_P【学习笔记】

第2课第5节_Java面向对象编程_异常_P【学习笔记】

MapReduce的原理及执行过程 Combiner

Hadoop深入学习：MapReduce的编程模型

Mapreduce的combiner

今日推荐

周排行

Leetcode简单题61~80

解决zookeeper磁盘IO高的问题

多线程相关方法详解

Maven-setting.xml文件详解

Maven 项目的 classpath 理解

渊亭科技大数据笔试题

配置JVM内存分配

计算机网络个人学习笔记（三）网络层：第三部分连载

js中两个等号(==)和三个等号(===)的区别

用C程序自动打开电脑上的程序

每日归档

更多

2024-09-18(0)

2024-09-17(0)

2024-09-16(0)

2024-09-15(0)

2024-09-14(0)

2024-09-13(0)

2024-09-12(0)

2024-09-11(0)

2024-09-10(0)

2024-09-09(0)