大数据求索(14): Redis的持久化详解

一、Redis的持久化

Redis提供了两种不同的持久化方式：

RDB（Redis DataBase）持久化，以指定的时间间隔对数据集进行时间点快照的保存
AOF（Append only File）持久化，以日志的形式，记录服务器收到的每个写操作，不保留读操作。在服务器重启的时候，会重新顺序执行一遍写操作，以恢复数据。

这两种方式可以单独开启，也可以同时开启，支持自由配置。下面针对两种持久化方式做详细介绍。

二、RDB持久化

2.1 是什么

在指定的时间间隔内将内存中的数据集快照写入磁盘，也就是所谓的Snapshot快照，它恢复时是将快照文件直接读到内存里。

Redis会单独创建(fork)一个子进程来进行持久化，会先将数据写入到一个临时文件中，待持久化过程都结束了，再用这个临时文件替换上次持久化好的文件。整个过程中，主进程是不进行任何IO操作的，以确保极高的性能。

如果需要进行大规模数据的话恢复，且对于数据的恢复的完整性不是非常敏感，那么RDB方式AOF方式更加的高效，后面对AOF做了介绍后会有更深的理解。

RDB有一个严重缺点，就是最后一次持久化后的数据可能丢失。

2.2 触发RDB快照与恢复

RDB保存的是dump.rdb文件，这个可以在配置文件中进行配置。如下图所示

在这里插入图片描述

在bin目录下会生成dump.db文件，为了观察实验结果，可以将save的参数调小。三行save配置代表的含义是：

save 秒读写次数

是1分钟内改了1万次，
或5分钟内改了10次，
或15分钟内改了1次。

则触发快照。

将dump.rdb文件拷贝一份

cp dump.rdb dump_bak.rdb

然后将dump.rdb删掉，shutdown Redis服务器以后重新启动，发现无数据。

将备份的rdb文件改回来，重新启动，可以发现又有原来的数据，说明做到了数据的持久化。

也可以执行save命令或bgsave(background，不是big的意思)

SAVE：save时只管保存，其它不管，全部阻塞,不适合非常大的数据同时又要响应请求的情况。

BGSAVE：Redis会在后台异步进行快照操作，快照同时还可以响应客户端请求。可以通过lastsave, 命令获取最后一次成功执行快照的时间。

2.3 优点

适合大规模的数据恢复
对数据完整性和一致性要求不高

2.4 缺点

在一定间隔时间内做一次备份，所以如果redis意外down掉，就会丢失最后一次快照后的所有修改。
Fork的时候，内存中的数据被克隆了一份，大致2倍的膨胀性需要考虑。
但上述成立有条件，Linux也有优化手段。

在Linux程序中，fork()会产生一个和父进程完全相同的子进程，但子进程在此后多会exec系统调用，出于效率考虑，尽量避免膨胀。

Linux中引入了“写时复制技术”，一般情况父进程和子进程会共用同一段物理内存，只有进程空间的各段的内容要发生变化时，才会将父进程的内容复制一份给子进程。

2.5 如何停止RDB

redis-cli config set save ""

即修改配置文件，save后面配置为""就可以了

2.6 总结

RDB是一个非常紧凑的文件，经过了压缩
RDB在保存RDB文件时父进程唯一需要做的就是fork处一个子进程，接下来的工作全部由子进程来做，父进程不需要再做其他IO操作，所以RDB持久化方式可以最大化redis的性能
与AOF相比，在恢复大数据集的时候，RDB方式会更快
RDB数据丢失风险大，因为RDB需要进程fork子进程来保存数据集到硬盘上。当数据集比较大的时候，fork的过程是非常耗时的，可能会导致redis在一些毫秒级不能响应客户端请求保存下来。

三、AOF持久化

3.1 是什么

以日志的形式来记录每个写操作，将Redis执行过的所有写指令记录下来(读操作不记录)，只许追加文件但不可以改写文件，redis启动之初会读取该文件重新构建数据，换言之，redis重启的话就根据日志文件的内容将写指令从前到后执行一次以完成数据的恢复工作。

AOF保存的是appendonly.aof文件，默认是关闭的。

在这里插入图片描述

3.2 AOF使用与恢复

正常恢复：

修改默认的appendonly no，改为yes
将有数据的aof文件复制一份保存到对应目录(config get dir)
恢复：重启redis然后重新加载

异常恢复：

修改默认的appendonly no，改为yes
备份被写坏的AOF文件
修复
恢复：重启redis然后重新加载

3.3 优点

AOF有一个重要配置，叫做appendfsync，有三个可选值

每修改同步：appendfsync always 同步持久化每次发生数据变更会被立即记录到磁盘，性能较差但数据完整性比较好
每秒同步：appendfsync everysec 异步操作，每秒记录如果一秒内宕机，有数据丢失
不同步：appendfsync no 从不同步

适当的配置有利于发挥最大性能，需要结合项目具体实现。一般启用AOF以后，不采用不同步配置，不然没有意义。

3.4 缺点

相同数据集的数据而言aof文件要远大于rdb文件，恢复速度慢于rdb
Aof运行效率要慢于rdb,每秒同步策略效率较好，不同步效率和rdb相同

3.5 总结

AOF文件是一个只进行追加的日志文件
Redis可以在AOF文件体积变得过大时，自动地在后台对AOF进行重写
AOF文件有序的保存了对数据执行的所有写入操作，这些写入操作以Redis协议的格式保存。因此，AOF文件内容非常容易读懂，对文件分析也很轻松。可以自己打开文件看一下内容。
根据所使用的fsync策略，AOF的速度可能会慢于RDB

四、总结

假如同时开启两种持久化方式，在这种情况下,当redis重启的时候会优先载入AOF文件来恢复原始的数据,因为在通常情况下AOF文件保存的数据集要比RDB文件保存的数据集要完整。这个可以手工验证，自己修改AOF的文件即可。

RDB的数据不实时，同时使用两者时服务器重启也只会找AOF文件。那要不要只使用AOF呢？作者建议不要，因为RDB更适合用于备份数据库(AOF在不断变化不好备份)，快速重启，而且不会有AOF可能潜在的bug，留着作为一个万一的手段。

官方建议如下：

在这里插入图片描述