企业级负载均衡集群——RHCS集群概念、通过fence设备解决集群节点之间争抢资源的现象、实现各集群节点之间服务迁移时客户端仍正常访问(高可用HA)

一、RHCS集群的定义及相关概念

1.1 RHCS集群的定义

RHCS,即RedHat Cluster Suite ,中文意思即红帽集群套件。红帽集群套件(RedHat Cluter Suite, RHCS)是一套综合的软件组件,可以通过在部署时采用不同的配置,以满足对 高可用性,负载均衡,可扩展性,文件共享和节约成本 的需要。它主要应用于 红帽企业linux6。它提供有如下两种不同类型的集群:

  • **高可用性:**应用/服务故障切换,通过创建n个节点的服务器集群来实现关键应用和服务的故障切换
  • 负载均衡 : IP 负载均衡,对一群服务器上收到的 IP 网络请求进行负载均衡

1.2 RHCS集群的特点

(1)最多支持128个节点(红帽企业Linux 3 和红帽企业Linux 4 支持 16 个节点)。
(2)可同时为多个应用提供高可用性。
(3)NFS/CIFS 故障切换:支持 Unix 和 Windows 环境下使用的高可用性文件。
(4)完全共享的存储子系统:所有集群成员都可以访问同一个存储子系统。
(5)综合数据完整性:使用最新的 I/O 屏障(barrier)技术,如可编程的嵌入式和外部电源开关装置(power switches)。
(6)服务故障切换:红帽集群套件可以确保及时发现硬件停止运行或故障的发生并自动恢复系统,同时,它还可以通过监控应用来确保应用的正确运行并在其发生故障时进行自动重启。

1.3 RHCS 集群组成

(1)集群架构管理器
这是RHCS 集群的一个基础套件,提供您一个集群的基本功能,使各个节点组成的集群在一起工作,具体包含分布式集群管理器(CMAN),成员关系管理、锁管理(DLM)配置文件管理(CCS)、栅设备(FENCE)。

(2)高可用服务管理器
提供 节点服务监控和服务故障转移,当一个节点服务出现故障时,将服务转移到另一个健康的节点上

(3)集群配置管理工具
通过 LUCI 来管理和配置RHCS集群,LUCI是一个基于web的集群配置方式,通过LUCI可以轻松的搭建一个功能强大的集群系统。节点主机可以使用ricci来和luci 管理段进行通信。

(4)Linux virtual server
LVS 是一个开源的 负载均衡软件,用LVS 可以将客户端的请求根据指定的负载策略和算法合理分配到各个节点,实现动态、智能的负载分担。LVS相关

(5)RedHatGS(global files ystem)
GFS 是Redhat公司开发的一款集群文件系统,目前最新的版本是GFS2,GFS文件系统允许多个服务同时读写一个磁盘分区,通过GFS可以实现数据的集中管理,免去了数据同步和拷贝的麻烦,但GFS不能独立存在,需要RHCS的底层组件支持。

(6)cluster logical volume manager
CLuster 逻辑卷管理,及CLVM,是LVM的扩展,这种允许cluster 中的机器使用LVM来管理共享存储

(7)ISCSI
是一种在Internet协议上,特别是以太网上进行数据传输的标准,他是一种基于IPstorage理论的新型存储技术。RHCS可以通过ISCSI技术来导出和分配共享存储的使用

1.4 RHCS集群运行原理及功能介绍

(1)分布式集群管理器(CMAN)
它运行在各个节点上,为RHCS提供集群管理任务CMAN 用于管理集群成员、消息和通知,他 通过 监控每个节点的运行状态 来了解节点成员之间的关系,当节点出现故障时,CMAN及时将这种改变通知底层,进而做出相应的调整。

(2)锁管理(DLM)
表示一个分布式锁管理器,他是RHCS的一个底层基础构建,同时也为集群提供了一个公用的锁运行机制。在RHCS中,DLM运行在集群的每个节点上,GFS通过锁管理机制来同步访问数据系统元数据。CLVM通过锁管理其来同步更新数据到LVM卷和逻辑卷, DLM 不需要设定锁哪里服务器,它采用对等的锁管理方式,大大提高了处理性能,同时, DLM避免了当单个节点失败需要整体恢复的性能瓶颈。 另外,DLM的请求都是本地的,不需要网络请求,因而请求会立即生效。最后,DLM通过分层机制,可以实现多个锁空间的并行管理模式。

(3)配置文件管理(CCS)
Cluster Configuration System,简称CCS,主要用于集群配置文件管理和配置文件在节点之间的同步。有时候,luci管理界面可能由于网络等方面的以素并不是那么畅快,CCS就显得很必要了,CCS运行在集群的每个节点上,监控每个集群节点上的单一配置文件/etc/cluster/cluster.conf的状态。当这个文件发生任何变化时,都将此变化更新到集群中的每个节点,时刻保持每个节点的配置文件同步。例如,管理员在节点A上更新了集群配置文件,CCS发现A节点的配置文件发生变化后,马上将此变化传播到其它节点上去 。rhcs的配置文件是cluster.conf,它是一个xml文件,具体包含集群名称、集群节点信息、集群资源和服务信息、fence设备等

(4)栅设备(FENCE)
FENCE设备是RHCS集群中必不可少的一个组成部分,通过FENCE设备可以避免因出现不可预知的情况而造成的“脑裂”现象。
FENCE设备的出现,就是为了解决类似这些问题,Fence设备主要就是通过服务器或存储本身的硬件管理接口或者外部电源管理设备,来对服务器或存储直接发出硬件管理指令,将服务器重启或关机,或者与网络断开连接。

(5)高可用服务管理器(rgmanager)
高可用性服务管理主要用来监督、启动和停止集群的应用、服务和资源。它提供了一种对集群服务的管理能力,当一个节点的服务失败时
,高可用性集群服务管理进程可以将服务从这个失败节点转移到其它健康节点上来,并且这种服务转移能力是自动、透明的。

RHCS通过rgmanager来管理集群服务,rgmanager运行在每个集群节点上,在服务器上对应的进程clurgmgrd。
在一个RHCS集群中,高可用性服务包含集群服务和集群资源两个方面,集群服务其实就是应用服务,例如apache、mysql等,
集群资源有很多种,例如一个IP地址、一个运行脚本、ext3/GFS文件系统等。

在RHCS集群中,高可用性服务是和一个失败转移域结合在一起的,所谓失败转移域是一个运行特定服务的集群节点的集合。
在失败转移域中,可以给每个节点设置相应的优先级,通过优先级的高低来决定节点失败时服务转移的先后顺序,
如果没有给节点指定优先级,那么集群高可用服务将在任意节点间转移。
因此,通过创建失败转移域不但可以设定服务在节点间转移的顺序,而且可以限制某个服务仅在失败转移域指定的节点内进行切换。

(6)集群配置管理工具(luci和ricci)
Conga是一种新的基于网络的集群配置工具,Conga是通过web方式来配置和管理集群节点的。
Conga有两部分组成,分别是luci和ricci,luci安装在一台独立的计算机上,用于配置和管理集群 ricci安装在每个集群节点上,Luci通过ricci和集群中的每个节点进行通信。 RHCS也提供了一些功能强大的集群命令行管理工具,常用的有clustat、cman_tool、ccs_tool、fence_tool、clusvcadm等

(7)RedhatGFS
GFS是RHCS为集群系统提供的一个存储解决方案,它允许集群多个节点在块级别上共享存储,每个节点通过共享一个存储空间,保证了访问数据的一致性,更切实的说,GFS是RHCS提供的一个集群文件系统,多个节点同时挂载一个文件系统分区,而文件系统数据不受破坏,这是单一的文件系统不能实现的。

为了实现多个节点对于一个文件系统同时读写操作,GFS使用锁管理器来管理I/O操作,当一个写进程操作一个文件时,这个文件就被锁定,此时不允许其它进程进行读写操作直到这个写进程正常完成才释放锁,有当锁被释放后,其它读写进程才能对这个文件进行操作,另外,当一个节点在GFS文件系统上修改数据后,这种修改操作会通过RHCS底层通信机制立即在其它节点上可见。

在搭建RHCS集群时,GFS一般作为共享存储,运行在每个节点上,并且可以通过RHCS管理工具对GFS进行配置和管理。这些需要说明的是RHCS和GFS之间的关系,一般初学者很容易混淆这个概念:运行RHCS,GFS不是必须的,只有在需要共享存储时,才需要GFS支持,而搭建GFS集群文件系统,必须要有RHCS的底层支持,所以安装GFS文件系统的节点,必须安装RHCS组件。

二、通过fence设备解决集群节点之间争抢资源的现象

  • FENCE的工作原理是: 当意外原因导致主机异常或者宕机时,备机会首先调用FENCE设备,然后通过FENCE设备将异常主机重启或者从网络隔离,当FENCE操作成功执行后,返回信息给备机,备机在接到FENCE成功的信息后,开始接管主机的服务和资源。这样通过FENCE设备,将异常节点占据的资源进行了释放,保证了资源和服务始终运行在一个节点上。
  • RHCS的FENCE设备可以分为两种:内部FENCE和外部FENCE,常用的内部FENCE有IBMRSAII卡,HP的iLO卡,还有IPMI的设备等,外部fence设备有UPS、SANSWITCH、NETWORKSWITCH等

实验环境
1)rhel6.5的系统
2)虚拟机

ip 用途
主机(真机):172.25.7.250 作为fence设备,前面暂时不用
虚拟机server1: 172.25.7.101 下载ricci,luci(为了提供Conga配置用户界面),作主节点
虚拟机server2:172.25.7.102 下载ricci,作副节点

1、配置rhel6.5的yum源 配置虚拟机server1和server2的yum源,添加高可用,负载均衡,存储,文件系统(后面给HA添加存储等)

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

将server1的yum源配置文件发给server2:
在这里插入图片描述

创建基本集群环境

先搭建RHCS最基本的集群环境,也就是创建集群

2、在server1上安装集群管理结点服务ricci和集群图形化管理工具服务luci,这里的server1同时做管理节点和HA节点
(1)server1: yum install -y ricci luci

在这里插入图片描述
在这里插入图片描述(2)server2: yum install -y ricci
在这里插入图片描述

(3)server1和server2上,安装完ricci后会 产生ricci用户,给ricci用户设置密码:redhat

  • 从红帽企业版 Linux 6.1 开始,在任意节点中使用 ricci 推广更新的集群配置时要求输入密码,所以在安装完成ricci后需要修改ricci用户的密码,这个是后面节点设置的密码,安装完之后可以看到/etc/passwd文件中自动生成了一个ricci用户

在这里插入图片描述
在这里插入图片描述
(4)两节点开启ricci,luci并设置开机启动

  • rhel6中,开启服务:/etc/init.d/服务 start
/etc/init.d/ricci start
/etc/init.d/luci start
  • rhel6中,设定服务开机自启动: chkconfig 服务 on
chkconfig ricci on
chkconfig luci on

server1中在这里插入图片描述

在这里插入图片描述

查看这两个服务使用的端口: 8084和11111
在这里插入图片描述

server2
在这里插入图片描述

3、 此时,在真机登录https://172.25.7.101:8084

  • 浏览器访问https://172.25.12.1:8084 出现下面的界面,手动导入证书,点击【Advanced】
  • 注意:删除集群时要先删除节点,节点删除后集群会自动消失

在这里插入图片描述
用户名:root
密码:redhat
在这里插入图片描述

4、添加server1和server2到集群:
点击集群管理(manage cluster),选择create,创建集群

在这里插入图片描述

设置集群的基本信息,添加节点

在这里插入图片描述
点击create cluster开始创建,可以看到开始创建集群

在这里插入图片描述

  • 创建时两台虚拟机都会重启,如果之前没有设置服务开机启动这个时候就会报错,重启后要在虚拟机中手动打开服务创建的过程才会继续

此时,主机连接的server1和server2会断开。 为了方便操作,我们仍旧连接server1和server2,在真机上操作。

在这里插入图片描述

创建集群完成,节点添加成功
在这里插入图片描述

集群中的服务
在这里插入图片描述

5、查看集群的状态:clustat
在这里插入图片描述
在这里插入图片描述

6、查看集群节点上的单一配置文件/etc/cluster/cluster.conf

在这里插入图片描述
在这里插入图片描述

添加fence,解决争抢资源的现象

如何通过fence设备解决集群节点之间争抢资源的现象?

RHCS高可用集群比之前的lvs调度器性能更好,更全面,有更多功能,前端后端均有,在这里我们可以把每个集群节点当作一个调度器,实际上功能不止调度器一个。一般情况下集群节点中有主有备,正常情况下会有一个正常工作(调度器正常),但是当调度器坏了就完蛋了。
因此要做到一台调度器坏了,调度器1就去通知调度器2接管它的工作,正常情况下调度器1和调度器2会一直通信,当2收不到1的消息的时候,就说明1坏了,2马上接替1的工作,但是当1和2之间的心跳检测出现问题的时候,也就是有一个卡死了,其实两个都能正常工作,这个时候两个都能工作,因此1和2都会去为客户端服务,会去争抢资源,因此需要fence这样一个物理设备抑制争抢资源。 当争抢资源的时候,1会去通过fence设备强制重启2(或者2重启1),两个可以互相强制重启,但是实际当中集群也是有主有备的。现在server1是一个集群,server2是一个集群,真机是一个fence设备(保安)。通过fence这个物理设备将集群连接在一起,保证时刻只有一个集群正常工作一旦出现争抢资源的现象,主的集群就会通过fence强制重启备的集群,从而使主集群正常工作。

7、 添加fence
(1)配置真机的yum源:将虚拟机的yum源的配置文件发给真机

在这里插入图片描述

(2)在真机上安装fence的软件包

fence只是中间一个通道,server1和server2都是连接在fence这个物理设备上,通过一个集群去拔另外一个集群的电,防止争抢资源

yum search fence -y
yum install fence-virtd.x86_64 fence-virtd-libvirt.x86_64 fence-virtd-multicast.x86_64 -y

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

(3)配置fence : fence_virtd -c

在这里插入图片描述
设备选择br0,其他用默认

在这里插入图片描述

vim /etc/fence_virt.conf 可查看配置文件

在这里插入图片描述

在这里插入图片描述

(4)生成fence_xvm.key :dd if=/dev/urandom of=/etc/cluster/fence_xvm.key bs=128 count=1在这里插入图片描述

(5)把fence_xvm.key分发到HA节点,通过这个key来管理节点

scp fence_xvm.key root@server1:/etc/cluster/
scp fence_xvm.key root@server2:/etc/cluster/

在这里插入图片描述

在这里插入图片描述

(6)web界面为节点配置fence

添加fence设备(fence virt)—>vmfence(名字随便起)在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

  • 给server1和server2集群添加fence,vmfence_1(名字) uuid(server1主机的),vmfence_2(名字) uuid(server2主机的)。。因为两个集群的ip可能会一样,有可能会一次关闭两个集群,不安全,应该把每个集群唯一的uuid写在fence设备上面,在真机里面virt-manager把两个uuid查看出来。

在这里插入图片描述

(7)启动fence:systemctl start fence_virtd.service

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

8、测试

(1)在server1上面输入:fence_node server2可以看到集群1把集群2强制重启了

在这里插入图片描述
server1通过fence干掉server2,可以看到server2断电重启

在这里插入图片描述在这里插入图片描述

(2)当破坏server1的内核时,输入:echo c > /proc/sysrq-trigger,fence会强制重启server1

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

(3)当server2掉线,下线时,
在这里插入图片描述
查看集群状态,发现server2不在线。
在这里插入图片描述

三、实现各集群节点之间服务迁移时客户端仍正常访问(高可用HA)

背景 :当一个集群节点(类似于调度器)坏了,如何将服务安全的迁移到另一个集群上面,对于客户访问资源来说,访问毫无感觉,透明。在集群的图形化管理工具里面进行设置(类似于一个总的负责人,它管理所有的集群节点)
思路 :先设置迁移服务的规则,再设置客户访问资源的规则(入口地址,脚本方式启动web服务),最后资源组:所有的资源都要放在一个组里面,迁移的时候也是也是一整套的删除

3.1 高可用服务配置(以httpd为例)

server1和server2配置httpd服务,编写默认发布页面
在这里插入图片描述

在这里插入图片描述

1、设置失败回切(故障转移域)

(1)在浏览器里面:设置服务迁移failover Domains

在这里插入图片描述

 命名为webfail,当一个节点出现故障时切换到正常的哪一个上
将server1和server2添加在域中,设置两个节点的优先级,数字越小优先级越高
第三个表示是否服务往优先级高迁移,企业一般不会再自动迁移到优先级高

在这里插入图片描述

2、设置回切资源

点击add --> 添加ip address(集群外的VIP)—>设置切换主机的时间5秒—>submit提交
再次点击add–>添加script(因为httpd时脚本启动的)—>添加/etc/init.d/httpd文件

在这里插入图片描述

在这里插入图片描述

资源添加完毕后,查看httpd服务的状态,不用启动httpd服务,集群会自己开启

3、设置资源组

点击add设置资源组的名字为apache -->添加资源(上一步中添加的vip)—>添加资源(httpd脚本)

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

刷新页面,显示httpd服务运行在server1上(server1优先级高)
在这里插入图片描述

4、测试

(1)在server1上, 关闭httpd服务
在这里插入图片描述

在这里插入图片描述
服务和入口ip自动迁移到server2上,且不回迁

在这里插入图片描述
(2)在server2中输入echo c> /proc/sysrq-tigger,破坏server2的内核,使其重启
在这里插入图片描述
服务自动迁移到了server1

在这里插入图片描述

当server2重启成功后,服务不会自动回迁到server1上(可设定回迁)
在这里插入图片描述
没有手动开启httpd服务时在web集群管理界面,刷新界面只会开启一个节点的httpd
所以当服务落在某一个节点时只能访问到虚拟ip和当前节点,其他节点是访问不到的

发布了102 篇原创文章 · 获赞 21 · 访问量 5337

猜你喜欢

转载自blog.csdn.net/ranrancc_/article/details/102577279