哨兵机制

Sentinel(哨兵、哨岗)是Redis 的高可用性的解决方案:有一个或多个Sentinel实例组成的Sentinel系统可以监视任意多个主服务器,以及这些主服务器属下的所有从服务器,并在被监视的主服务器进入下线状态时,自动将下线主服务器属下的某个从服务器升级为主服务器,然后由新的主服务器代替已下线的主服务器继续处理命令请求。

一:获取主服务器信息

Sentinel 默认每十秒一次,通过命令连接向被监视的主服务器发送 INFO 命令,并通过分析 INFO 命令回复来获取主服务器当前信息。两方面信息:

关于服务器本身的信息

包括 run_id 域记录的服务器运行ID,以及 role 域记录的服务器角色

关于主服务器属下的所有从服务器信息

1:每个从服务器都由一个“slave”字符串开头的行记录,每行的 ip= 域记录了从服务器的IP地址, port= 域记录了从服务器的端口号。根据这些IP地址和端口号,Sentinel无须用户提供从服务器的地址信息,就可以自动发现从服务器。

2:根据 run_id 域和 role 域的信息,Sentinel将对主服务器的实例结构进行更新。而主服务器返回的从服务器信息,将会被用于更新主服务器实例结构的 slaves 字典

3:Sentinel 分析 INFO 命令中包含的从服务器信息时,会检查从服务器对应的实例结构是否已经存在于 slaves 字典: 如果存在,就对从服务器的实例结构进行更新,如果不存在(表明这个从服务器是新发现的从服务器),Sentinel会在 slaves 字典中为这个从服务器创建一个新的实例结构。

主服务器和从服务器实例结构的区别:

主服务器实例结构的 flags 值为 SRI_MASTER,从服务器是 SRI_SLAVE

主服务器实例结构的 name 由用户使用Sentinel配置文件设置,从服务器的name 是由Sentinel根据服务器ip+port自动设置。

二:获取从服务器信息

当Sentinel发现主服务器有新的服务器出现时,除了会为这个新从服务器创建相应的实例结构之外,还会创建连接到从服务器的命令连接和订阅连接。

创建了命令连接之后,每10秒一次向从服务器发送 INFO 命令,并根据回复分析以下信息:

从服务器的运行ID run_id

从服务器的角色 role

主服务器的ip地址 master_host 以及主服务器的端口号 master_port

主从服务器的连接状态 master_link_status

从服务器的优先级 slave_priority

从服务器的复制偏移量 slave_repl_offset

根据这些信息,Sentinel会对从服务器的实例结构进行更新

三:向主服务器和从服务器发送信息

每两秒一次,通过命令连接向所有被监视的主服务器和从服务器发送命令

四:接收来自主服务器和从服务器的频道信息

五: 更新 sentinels 字典

sentinels 字典保存了除Sentinel本身之外,所有同样监视这个主服务器的其他Sentinel资料:

1:键 是其中一个Sentinel的名字,格式:ip:port

2:值 是对应Sentinel的实例结构

当一个Sentinel接收到其他Sentinel发来的信息时(称发送信息的Sentinel为源Sentinel,接收信息的Sentinel为目标Sentinel),目标Sentinel会从信息中分析出以下信息:

与Sentinel相关的参数:源Sentinel的IP、port、run_id、配置纪元

与主服务器相关参数:源Sentinel 正在监视的主服务器的名字、IP、port、配置纪元

根据这些主服务器参数,目标Sentinel会在自己的Sentinel状态的 masters 字典中查找相应的主服务器实例结构,然后根据提出的Sentinel参数,检查主服务器实例结构的 sentinels 字典中,源 Sentinel的实例结构是否存在:

存在,就对源Sentinel的实例结构进行更新

不存在,说明源Sentinel是才开始监视主服务器的新Sentinel,目标Sentinel会为源Sentinel创建一个新的实例结构,并将这个结构添加到 sentinels 字典里面

六:创建连向其他Sentinel的命令连接

当Sentinel通过频道信息发现了一个新的Sentinel时,它不仅会为新的Sentinel在 sentinels 字典中创建相应的实例结构,还会创建一个连向新Sentinel的命令连接。新的Sentinel同样会创建连向这个Sentinel的命令连接,最终监视同一主服务器的多个Sentinel将形成相互连接的网络:SentinelA有连向SentinelB的命令连接,SentinelB也有连向SentinelA的命令连接。

七:检测主观下线状态

默认情况下,Sentinel会以每秒一次的频率向所有与它创建了命令连接的实例(包括主服务器、从服务器、其他Sentinel在内)发送 PING 命令,并通过实例返回的 PING 命令回复来判断实例是否在线。

两种实例对 PING 指令的回复情况:

有效回复:实例返回 +PONG 、 -LOADING 、-MASTERDOWN 三种其中一种

无效回复,除了上面三种之外的其它回复,或者在指定时限内没有返回任何回复

Sentinel配置文件中的 down-after-millseconds 选项指定了Sentinel判断实例进入主观下线所需的时间长度:如果一个实例在 down-after-millseconds 毫秒内,连续向Sentinel返回无效回复,那么Sentinel会修改这个实例所对应的实例结构,在结构的 flags 属性中打开 SRI_S_DOWN 标识,用于表示这个实例已经进入主观下线状态。

注意:

1. 主观下线时长选项,即 down-after-down 的值,不仅会被Sentinel用于判断主服务器的主观下线状态,还会被用于判断主服务器属下的所有从服务器,以及所有同样监视这个主服务器的其他Sentinel的主观下线状态。

2. 多个Sentinel设置的主观下线时长可能不同,对于监视同一个主服务器的多个Sentinel来说,这些Sentinel设置的 down-after-milliseconds 选项的值可能不同,因此,当一个Sentinel将主服务器判断为主观下线时,其它Sentinel可能任然会认为主服务器处于在线状态

八:检测客观下线状态

当Sentinel将一个主服务器判断为主观下线之后,为确定这个服务器是否真的下线,它会向同样监视这个主服务器的其它Sentinel进行询问,当接收到足够数量的已下线判断之后,Sentinel就会将从服务器判定为客观下线,并对主服务器进行故障转移操作。

1:发送 SENTINEL is-master-down-by-addr 命令询问其它Sentinel是否同意主服务器下线

SENTINEL is-master-down-by-addr <ip> <port> <current_epoch> <runid>

ip 被Sentinel判断 为主观下线的主服务器ip

port 被Sentinel判断 为主观下线的主服务器端口号

current_epoch Sentinel当前的配置纪元,用于选举领头Sentinel

runid 可以是 *符号或者Sentinel的运行ID,* 表示命令仅仅用于检测主服务器的客观下线状态,而Sentinel的运行ID则用于选举领头Sentinel

2:接收 SENTINEL is-master-down-by-addr 命令

当一个Sentinel(目标Sentinel)接收到另外一个Sentinel(源Sentinel)发来的 SENTINEL is-master-by-addr 命令时,目标Sentinel会分析并取出命令请求中包含的各个参数,并根据其中的IP和port,判断主服务器是否已经下线,然后向源Sentinel返回一个包含三个参数的 Multi Bulk 回复作为这个命令的回复。

这三个参数分别是:

<down_state> 返回目标Sentinel对主服务器的检查结果,1表示主服务器已下线,0表示主服务器未下线

<leader_runid> 可以是 * 符号或者目标Sentinel的局部领头Sentinel的运行ID,*表示命令仅仅用于检测主服务器的下线状态,而局部领头Sentinel的运行ID则用于选举领头Sentinel

<leader_epoch> 目标Sentinel的局部领头Sentinel的配置纪元,用于选举领头Sentinel。仅在 leader_runid 值不为 * 时有效,如果其值为 * ,这个参数总为0

3:接收 SENTINEL is-master-down-by-addr 命令的回复

根据其他Sentinel发回的 SENTINEL is-master-down-by-addr 回复,Sentinel将统计同意主服务器下线的数量,当这个值达到配置指定的判断客观下线所需的数量时(即 quorum 属性的值),Sentinel会将主服务器实例结构中 flags 属性的 SRI_O_DOWN 标识打开,标识主服务器已经进入客观下线状态。

九:选举领头Sentinel

当一个主服务器被判断为客观下线时,监视这个下线主服务器的各个Sentinel会进行协商,选举出一个领头Sentinel,并由领头Sentinel对下线主服务器进行故障转移操作。

至于如何选举领头Sentinel的规则和方法:

1:每个Sentinel都有成为领头的机会,无论选举成功与否,其配置纪元都会进行自增。

2:局部领头:当一个Sentinel A向另一个Sentinel B发送请求 SENTINEL is-master-down-by-addr + SentinelA 的runid ,这就代表A想成为B的局部领头

3:这种局部领头规则就是先到先得,最早向目标Sentinel发送这个命令的比如成为目标Sentinel的局部领头Sentinel,后面接收到的所有设置要求都会被目标Sentinel拒绝,当它的票数超过半数时,它就会成为领头Sentinel,然后对下线的主服务器执行故障转移操作。

十:故障转移

在选举产生出领头Sentinel之后,领头Sentinel将对已下线的主服务器进行故障转移操作:

在已下线的主服务器属下的所有从服务器中,挑选一个从服务器作为主服务器

挑选一个状态良好、数据完整的从服务器,然后发送 SLAVEOF no one 命令,然后将这个从服务器转换成主服务器

让已下线的主服务器的所有从服务器改为复制新的主服务器

将已下线主服务器设置为新的主服务器的从服务器,这个旧的主服务器重新上线时,就会成为新的主服务器的从服务器。

发布了50 篇原创文章 · 获赞 2 · 访问量 2271

猜你喜欢

转载自blog.csdn.net/eafun_888/article/details/104714263