大数据处理架构Hadoop
概述
Hadoop简介
-
Hadoop是一个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构。
-
Hadoop是基于Java语言开发的,具有很好的跨平台特性,并且可以部署在廉价的计
算机集群中。 -
Hadoop的核心是分布式文件系统HDFS(Hadoop Distributed File System)和
MapReduce。 -
Hadoop被公认为行业大数据标准开源软件,在分布式环境下提供了海量数据的处理
能力。
Hadoop的特性
- Hadoop是一个能够对大量数据进行分布式处理的软件框架,并且是以一种可靠、高效、可伸缩的方式进行处理的,它具有以下几个方面的特性:
- 高可靠性
- 高效性
- 高可扩展性
- 高容错性
- 成本低
- 运行在Linux平台上
- 支持多种编程语言
Hadoop在企业中的应用架构
Hadoop项目结构
-
Hadoop的项目结构不断丰富发展,已经形成一个丰富的Hadoop生态系统。
-
各大组件及其功能
Hadoop集群的部署与使用
集群节点类型
-
Hadoop框架中最核心的设计是为海量数据提供存储的HDFS和对数据进行计算的MapReduce。
-
MapReduce的作业主要包括:(1)从磁盘或从网络读取数据,即IO密集工作;(2)计算数据,即CPU密集工作。
-
Hadoop集群的整体性能取决于CPU、内存、网络以及存储之间的性能平衡。因此运营团队在选择机器配置时要针对不同的工作节点选择合适硬件类型。
-
一个基本的Hadoop集群中的节点主要有:
- NameNode:负责协调集群中的数据存储
- DataNode:存储被拆分的数据块
- JobTracker:协调数据计算任务
- TaskTracker:负责执行由JobTracker指派的任务
- SecondaryNameNode:帮助NameNode收集文件系统运行的状态信息
集群规模
-
Hadoop集群规模可大可小,初始时,可以从一个较小规模的集群开始,比如包含10个节点,然后,规模随着存储器和计算需求的扩大而扩大。
-
如果数据每周增大1TB,并且有三个HDFS副本,然后每周需要一个额外的3TB作为原始数据存储。要允许一些中间文件和日志(假定30%)的空间,由此,可以算出每周大约需要增加一台新机器。存储两年数据的集群,大约需要100台机器。
-
对于一个小的集群,名称节点(NameNode)和JobTracker运行在单个节点上,通常是可以接受的。但是,随着集群和存储在HDFS中的文件数量的增加,名称节点需要更多的主存,这时,名称节点和JobTracker就需要运行在不同的节点上。
-
第二名称节点(SecondaryNameNode)会和名称节点可以运行在相同的机器上,但是,由于第二名称节点和名称节点几乎具有相同的主存需求,因此,二者最好运行在不同节点上。
集群硬件配置
-
在集群中,大部分的机器设备是作为Datanode和TaskTracker工作的。
-
Datanode/TaskTracker的硬件规格可以采用以下方案:
- 4个磁盘驱动器(单盘1-2T),支持JBOD(Just a Bunch Of Disks,磁盘簇)
- 2个4核CPU,至少2-2.5GHz
- 16-24GB内存
- 千兆以太网
-
NameNode提供整个HDFS文件系统的NameSpace(命名空间)管理、块管理等所有服务,因此需要更多的RAM,与集群中的数据块数量相对应,并且需要优化RAM的内存通道带宽,采用双通道或三通道以上内存。
-
NameNode硬件规格可以采用以下方案:
- 8-12个磁盘驱动器(单盘1-2T)
- 2个4核/8核CPU
- 16-72GB内存
- 千兆/万兆以太网
-
SecondaryNameNode在小型集群中可以和NameNode共用一台机器,较大的集群可以采用与NameNode相同的硬件。
集群网络拓扑
-
普通的Hadoop集群结构由一个两阶网络构成。
-
每个机架(Rack)有30-40个服务器,配置一个1GB的交换机,并向上传输到一个
核心交换机或者路由器(1GB或以上)。 -
在相同的机架中的节点间的带宽的总和,要大于不同机架间的节点间的带宽总和。
集群的建立与安装
-
采购好相关的硬件设备后,就可以把硬件装入机架,安装并运行Hadoop。
-
安装Hadoop有多种方法:
- 手动安装
- 自动化安装
- 为了缓解安装和维护每个节点上相同的软件的负担,可以使用一个自动化方法实现完全自动化安装,比如Red Hat Linux’ Kickstart、 Debian或者Docker。
- 自动化安装部署工具,会通过记录在安装过程中对于各个选项的回答来完成自动化安装过程。
集群基准测试
-
Hadoop自带有一些基准测试程序,被打包在测试程序JAR文件中。
-
用TestDFSIO基准测试,来测试HDFS的IO性能。
-
用排序测试MapReduce: Hadoop自带一个部分排序的程序,这个测试过程的整个数据集都会通过洗牌(Shuffle)传输至Reducer,可以充分测试MapReduce的性能。
在云计算环境中使用Hadoop
-
Hadoop不仅可以运行在企业内部的集群中,也可以运行在云计算环境中。
-
可以在Amazon EC2中运行Hadoop。 EC2是一个计算服务,允许客户租用计算机(实例),来运行自己的应用。客户可以按需运行或终止实例,并且按照实际使用情况来付费。
-
Hadoop自带有一套脚本,用于在EC2上面运行Hadoop。
-
在EC2上运行Hadoop尤其适用于一些工作流。例如,在Amazon S3中存储数据,在EC2上运行集群,在集群中运行MapReduce作业,读取存储在S3中的数据,最后,在关闭集群之前将输出写回S3中;如果长期使用集群,复制S3数据到运行在EC2上的HDFS中,则可以使得数据处理更加高效,因为, HDFS可以充分利用数据的位置,S3则做不到,因为, S3与EC2的存储不在同一个节点上。