pt-archiver注意问题

归档到其他数据库要点:
1. 线上数据库和备份数据库之间网络状态问题
2. 磁盘I/O压力
3. 磁盘空间问题
4. 不建议归档到同一台服务器上,I/O,内存和CPU压力问题
5. 主从架构下归档数据后删除导致 复制、业务上增删改查性能问题,建议不要删除原数据,使用 STATEMENT的 binlog 再删除,这样减少binlog生成复制

归档到本地服务器要点:
1. 磁盘I/O压力
2. 磁盘空间问题
3. 主从架构下归档数据后删除导致 复制、业务上增删改查性能问题,建议不要删除原数据,使用 STATEMENT的 binlog 再删除,这样减少binlog生成复制


数据库管理员经常会遇到需定期对数据进行归档和清除,DBA可利用mysql中percona的pt-archiver工具能完成这一功能,使得数据归档变得方便简单。
下面是对数据归档和清除实例:

1. 查看表结构
2. 建立归档表

场景一:将表中小于2015-10-01 00:00:00时间的数据进行归档,不删除原表记录
$ ./pt-archiver --source h=原IP地址,P=3306,u=lsprd,p=safe2016,D=ls,t=原表 --dest h=目标IP地址,P=3306,u=lsprd,p=safe2016,D=ls,t=归档表 --no-check-charset --where 'CREATE_DATE<"2015-10-01 00:00:00"' --progress 5000 --no-delete --limit=10000 --statistics

场景二:将表中小于2015-10-01 00:00:00时间的数据进行归档,删除原表记录
[ls]> truncate table ls.t_od20151001;
Query OK, 0 rows affected (0.31 sec)

$ ./pt-archiver --source h=原IP地址,P=3306,u=lsprd,p=safe2016,D=ls,t=原表 --dest h=目标IP地址,P=3306,u=lsprd,p=safe2016,D=ls,t=归档表 --no-check-charset --where 'CREATE_DATE<"2015-10-01 00:00:00"' --progress 5000 --limit=10000 --statistics


场景三:将表中小于2015-10-10 00:00:00时间的数据进行归档,删除原表记录
$ ./pt-archiver --source h=原IP地址,P=3306,u=lsprd,p=safe2016,D=ls,t=原表 --dest h=目标IP地址,P=3306,u=lsprd,p=safe2016,D=ls,t=归档表 --no-check-charset --where 'CREATE_DATE<"2015-10-10 00:00:00"' --progress 5000 --limit=10000 --statistics

pt-archiver使用的场景:
1、清理线上过期数据
2、清理过期数据,并把数据归档到本地归档表中,或者远端归档服务器
3、两张表之间的数据不完全相同,希望合并。此时加上–ignore或–replace选项,可以轻松实现
4、导出线上数据,到线下数据作处理


其它作用:
1、用于清理过期数据purge:
执行命令:pt-archiver --source h=127.0.0.1,P=58886,D=test,t=t_archive --no-check-charset --where 'insertdate<"2013-08-10"' --purge --limit=2
1)注意--source后的DSN之间不能空格出现,否则会出错。 --where条件的值,有字符串的,要用引号括起来。
2) --limit表示,每组一次删除多少条数据(注意:如果数据比较多时,也可以设置大一些,减少循环次数),最终的清理操作,还是通过Where pK=xx来处理的;

2、用于把数据导出文件,不用删除原表中数据
命令使用:
pt-archiver --source h=127.0.0.1,P=58886,D=test,t=t_info_refresh --no-check-charset --where 'AddTime>"2013-05-02"' --progress 4000 --no-delete --file "/tmp/pt-archiver.dat" --limit=10000
参数说明:
--statistics 结束的时候给出统计信息:开始的时间点,结束的时间点,查询的行数,归档的行数,删除的行数,以及各个阶段消耗的总的时间和比例,便于以此进行优化。
--progress 每处理progress指定的行数后,就打印一次信息
--no-delete :表示不删除原来的数据,注意:如果不指定此参数,所有处理完成后,都会清理原表中的数据。

猜你喜欢

转载自www.cnblogs.com/kelvin19840813/p/10464143.html
pt