Hadoop的初级学习记录

Hadoop的初级学习记录

1.为什么会出现hadoop?

当我们的数据非常大的时候,比如100T的数据,这时候用我们普通的数据库来存储、分析、处理数据的时候就会非常的耗时而且效率特别低,那么这时候就出现了hadoop等的框架来处理大数据的问题。

2.hadoop解决了哪些问题?

(1)利用HDFS来存储数据
(2)用MapReduce来分析处理数据

3.hadoop处理数据的流程是什么?

如果我们现在遇到了这样的一个问题:一个服务器上有2000T的数据这时候我们有两个用户需要访问这台服务器上的数据,这时候如果这台服务器坏了那么我们的用户就无法访问了,那么利用hadoop可以咋样处理这个问题呢?

(1)首先,我们将数据进行切片,将数据分成多片然后放在不同的服务器中。
	HDFS负责通过namecode将数据block在不同的服务器中,然后客户端
	最先访问到的就是namecode,然后才可以访问到datacode。
(2)最后通过MapReduce进行海量数据的计算。

4.MapReduce的计算过程是怎么样的呢?

需要说明的是将所有数据都通过带宽传输然后进行计算是不可能实现的。

(1)map阶段:各个主机在自己的本地将数据分析计算出来
(2)reduce阶段:一台主机负责将map阶段各个主机分析出来的数据进行统计(可以有分成多个reduce)。


猜你喜欢

转载自blog.csdn.net/weixin_42600398/article/details/85473261