初识Hadoop之MapReduce【持续更新中】

其他 2018-12-27 08:40:53 阅读次数: 0

文章目录

MapReduce

概念

MapReduce

概念

MapReduce是一种可用于数据处理的编程模型。MapReduce程序本质上是并行运行的，MapReduce的优势在于处理大规模数据集（高并行）。
MapReduce的任务过程分为两个阶段：map 阶段和 reduce 阶段。每个阶段都以自定义类型的K-V（K可以重复）对作为 input 和 outout ，重点是，需要我们自己实现map 和reduce 函数。
数据来源：HDFS, 关系型数据库，非关系型数据库等都可作为数据的来源。
切片：

split(数据源)，面向文件逻辑上的数据划分片，区别于hdfs切块，默认等于block的块大小，窗口机制，大小可以人为控制，并行度取决于切片的大小。为了计算向数据移动打下基础。

能定位到block的offset，split的偏移量一定在block内。

map的数量取决于split的数量。同时split规定了map读取数据量

reduce 数量取决于你的需求的结果(数据倾斜问题，10种key，一key数据量大，9key数据量小，2个reduce（1reduce处理大数据量，1reduce处理剩余9个）) （处理时间取决于数据倾斜最严重的那一台机器）

mapreduce流程图

MR 元语

相同的key为一组，调用一次reduce方法，方法内迭代这一组数据进行计算
不同的key在分区(partition)：相同的key分组

为什么要有排序？
为了保证相同的key调用一次reduce

shuffler

框架内部实现机制

分布式计算节点数据流转，连接MapTask 和 ReduceTask

猜你喜欢

转载自blog.csdn.net/yswhfd/article/details/84633427

初识Hadoop之MapReduce【持续更新中】

初识Hadoop 之 HDFS 及安装【持续更新中......】

初识Javascript【持续更新】

MapReduce资料合集整理下载（持续更新中……）

大数据之---hadoop问题排查汇总终极篇---持续更新中

hadoop基础之初识Hadoop MapReduce架构

hadoop细节 -> 持续更新

【持续更新】Hadoop笔记

Hadoop理论之MapReduce

hadoop基础之mapreduce

初学Hadoop之MapReduce

Hadoop 之 MapReduce原理

hadoop之MapReduce

Hadoop之MapReduce实战

Hadoop 之 MapReduce

Hadoop系列之-MapReduce

Hadoop之MapReduce简介

Hadoop之MapReduce基础

Hadoop学习之Mapreduce

Hadoop之MapReduce概述

hadoop之mapreduce详解

Hadoop Mapreduce 中的Partitioner

Hadoop中MapReduce的知识

[Hadoop] 常用的web界面汇总 (持续更新中...)

Hadoop系列之初识MapReduce（1）

初识hadoop之hadoop 安装

hadoop学习笔记-持续更新

hadoop学习笔记（持续更新）

初识Hadoop之HDFS

精通HADOOP（二） - 初识Hadoop - MapReduce模型介绍

今日推荐

周排行

Access的四舍五入取整

8.23 前端学习过程

入门学习过程方向与漏洞复现总结：

操作分布式文件之八：如何批量并行读写远程文件和事务补偿处理

应邀出个教程（搭建tensorflow跑网络环境）

Kubernetes之Pod控制器应用进阶

14-[mysql内置功能]--

HDU6212 区间dp 好题

VS2015生成代码图

验证手机号的工具类

每日归档

更多

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)

2024-10-12(0)