MapReduce分布式并行编程练习
一、目的
1、理解MapReduce分布式并行编程的基本概念和原理;
2、掌握MapReduce的执行流程以及shuffle的执行过程;
3、理解WordCount词频统计的设计思路;
4、学会MapReduce分布式并行编程思想,可以解决数据处理的实际问题。
二、内容
对下面原始数据进行处理,把所有拨打同一个公共服务电话的电话号码统计起来,展示为每个公共服务号码对应多个用户号码。
原始数据:
13718855152 112
18610117315 110
89451849 112
13718855153 110
13718855154 112
18610117315 114
18910117315 114
输出结果:
110 13718855153|18610117315|
112 13718855154|89451849|13718855152|
114 18910117315|18610117315|
三、过程
1、创建TellMapper类
2、创建TellRedcer类
3、创建TellCount类,进行main方法测试
4、打开终端,进行查看数据处理产生的文件的内容结果