大数据 hadoop hdfs mapreduce

其他 2018-12-17 03:02:58 阅读次数: 0

大数据hadoop

大数据 hadoop hdfs mapreduce

Hadoop是一个开源的框架，也是Apache的一个顶级项目。Hadoop框架中由两大模块组成，一个HDFS(Hadoop Distributed File System)，是用来存储需要处理数据，另外一个是MapReduce，是Hadoop的处理数据的计算模型。

Hadoop的好处在于：

可扩展：如果集群现在的能力不能满足现有的需求，可以增加数据节点来实现集群的扩展，但需要具体情况具体对待。
经济：Hadoop集群能够在普通、廉价的硬件设备上运行，节约开支。
可靠：HDFS上提供副本机制，可以使得数据不会丢失，MapReduce若发现计算的数据块损坏，它会自动寻找没有损坏的数据块重新计算。
高效：充分利用本地数据来提高性能。

大数据 hadoop hdfs mapreduce

如果有对大数据感兴趣程序员，可来我们的大数据交流扣qun哦：591305687里面免费送大数据的系统教程噢！小编也是一名从事了5年的数据算法工程师，花了近两个月整理了一份较适合当下学习的干货，以及我这5年的工作经验，分享给每一位想学大数据的小伙伴，这里是大数据学习者聚集地，欢迎初学和进阶中的小伙伴。

HDFS

HDFS的Hadoop的分布式系统，也可以部署在普通硬件机器上，是一个容错性高的系统，它有3个副本来解决容错问题的。
它是通过流式来读取数据的。它可以存储TB以上的数据量，它是通过顺序读取文件来实现高吞吐的。
HDFS适合处理大文件的访问，流式数据访问，不适合小文件的存储，因为这些文件的元数据会占用大量的内存空间，也适合随机读取，低延迟读取。

MapReduce

MR是一个并行计算的一个模型框架。文件储存在HDFS上，然后通过MR模型来进行大数据的处理。
它可以由许多的普通的硬件机器来构成大型并行集群，可以在集群上自动分配和执行任务以及收集结果，可以简化我们的工作，主要是用map和reduce两个函数来实现并行计算。
MR采用"分而治之"的思想来解决一台机器处理不了的事，它是分发给主节点管理的分节点来共同完成的，然后通过整合各个节点的中间结果，从而得到最终结果。
MR的运用场景是：数据可以分解成很多个小数据块来并行处理。

大数据 hadoop hdfs mapreduce

数据块

一个大型的文件在一台机器上是存储不下的，HDFS是通过将文件split成多个数据块block来实现存储的，以前一个数据块是64M,2.0版本是128M,3.0版本是256M。而且小于块大小的文件不会占用整个块的空间。每block都有3个副本（可配置）。

NameNode

NameNode是HDFS的元数据服务器，可以配置HA，里面信息包含每一个文件大小|权限|创建时间|位置等，主要管理文件和目录等。

DataNode

DataNode:负责检索和存储数据块，客户端访问数据文件时，先通过NameNode知道数据在哪个DataNode上存储的，然后直接读取数据块，而且DataNode是每隔一段时间会向NameNode发送一次心跳。

猜你喜欢

转载自blog.csdn.net/qq_40196321/article/details/85040524

大数据 hadoop hdfs mapreduce

Hadoop大数据平台入门——HDFS和MapReduce

大数据之初步了解HDFS、Hadoop和MapReduce

从零开始大数据--Hadoop、HDFS、MapReduce、HBase、Hive

《Hadoop篇》------HDFS与MapReduce

大数据（Hadoop）-MapReduce

大数据hadoop，mapReduce

Hadoop大数据 --HDFS

大数据的Hdfs与MapReduce介绍

小白学习大数据测试之hadoop hdfs和MapReduce小实战

大数据之（3）Hadoop环境MapReduce程序验证及hdfs常用命令

大数据系列（三）以日志为例，利用hadoop原生hdfs和MapReduce分别进行统计

Thinking in BigData（八）大数据Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解

Hadoop入门之HDFS与MapReduce

Hadoop(HDFS、MapReduce、Yarn)总结

Hadoop MapReduce将HDFS文本数据导入HBase

Hadoop HDFS, YARN ,MAPREDUCE,MAPREDUCE ON YARN

云计算与大数据之间的羁绊（期末不挂科版）：云计算 | 大数据 | Hadoop | HDFS | MapReduce | Hive | Spark

大数据基石——Hadoop与MapReduce

大数据（Hadoop）-HDFS原理

大数据 Hadoop之HDFS

大数据Hadoop之HDFS

大数据之Hadoop（HDFS）

大数据-hadoop之HDFS

IT Hadoop：足迹第四十八步：大数据表查询(MapReduce)与分布式存储(HDFS)

大数据时代之hadoop(一)：hadoop安装大数据时代之hadoop(二)：hadoop脚本解析大数据时代之hadoop(三)：hadoop数据流（生命周期）大数据时代之hadoop(四)：hadoop 分布式文件系统（HDFS) 大数据时代之hadoop(五)：hadoop 分布式计算框架（MapReduce）

Hadoop HDFS及MapReduce示例程序

Hadoop - HDFS - MapReduce - YARN - HA详解

Hadoop平台上HDFS和MapReduce的功能

Hadoop 中HDFS、MapReduce体系结构

今日推荐

周排行

rac环境打PSU补丁ERROR:This patch is not applicable to GI home.

科学活动《离园倒计时》（时间）

Windows 沙箱开发踩坑

secureCRT 改变显示宽度

hdu多校第六场1008 （hdu6641）TDL 暴力

【low向】注册用户时密码强度的判定

__int64

context-params与init-params

JS三个编码函数和net编码System.Web.HttpUtility.UrlEncode比较

springboot通过重写addResourceHandlers拦截请求访问本地资源

每日归档

更多

2024-08-08(0)

2024-08-07(0)

2024-08-06(0)

2024-08-05(0)

2024-08-04(0)

2024-08-03(0)

2024-08-02(0)

2024-08-01(0)

2024-07-31(0)

2024-07-30(0)