hadoop集群安装模式
1)单机模式
直接解压,无需任何配置。主要用于测试代码。没有分布式文件系统。
2)伪分布式
完全分布式的一种形式,只是所有的进程都配置要一个节点上。有分布式文件系统,只不过是这个文件系统只有一个节点。
3)完全分布式
包含主节点和从节点,主节点namenode只有一个(一般来说,真实生产环境中namenode只会单独作为一个节点)namenode主要负责存储元数据,即datanode存储数据的描述,如数据存储在datanode的哪一个节点上,数据是谁上传的。datanode负责真正干活的,负责数据存储的。完全分布式中,如果namenode宕机了会造成整个集群无法使用,这也是完全分布式的一大缺点,存在单点故障问题。所以在一般生产环境中不太使用这种模式。
4)高可用
集群可以持续对外提供服务,做到7*24小时不间断,依赖于zookeeper。完全分布式的架构模式为一主多从,高可用集群架构为多主多从,也就是说高可用集群至少有两个namenode,但是同一时间只有一个是活跃的。我们把这个活跃的namenode称为active,其它的属于热备份状态,这们把这个namenode称之为standby,并且存储的元数据与active是一模一样的,当active宕机的时候,standby会立马切换为active。如果刚才宕机的namenode又恢复正常了,但是这个namenode只能是standby。但是这个集群也存在一个缺陷,就是在同一时间内只能有一个活跃的namenode。如果节点非常多(即元数据过多),这个活跃的namenode很容易崩溃。
5)联邦机制
同一个集群中可以有多个namenode,并且同一时间可以有多个活跃的namenode,这些namenode 共同使用集群中所有的datanode,每个namenode只负责管理集群中datanode上的一部分数据。但是联邦机制也会存在单点故障问题,如某一个活跃的namenode宕机了,会造成存在此namenode的数据无法访问,因此,一般的来说实际应用使用“联邦+高可用”模式搭建集群。
完全分布式的安装
1.集群规划
主机名 | IP | HDFS | yarn |
hadoop01 | 192.168.220.141 | namenode datanode |
nodeManager |
hadoop02 | 192.168.220.142 | secondarynamenode datanode |
nodeManager |
hadoop03 | 192.168.220.143 | datanode | resourceManager nodeManager |
2.修改hostname 及 hosts
3.设置 SSH key
4.将公钥信息保存至授权认证中
5.登录测试
6.文件配置
7.集群配置
8.格式化文件系统
9.启动hadoop
10.查看进程
11.测试HDSF是否能正常使用