群晖NAS误删30T数据全部成功恢复并可用实战全过程

公司同事即将离职,不知道是无意还是恶意删除了公司200T共享存储空间的群晖NAS上30T的数据。电脑利用SMB协议挂载开机挂着删,删了三天三夜,直到第三天同事工作用着用着数据,突然就没了才发现有人在删除整个NAS里面的测试数据,第一时间打开群晖的日志找到了这个同事的ID还在不停的删除数据,立即强制关闭了他的电脑。

要命的是因为数据经常需要采集写入和删除更新,不是那么重要,测试组的数据管理员对这个目录也一直没有开启回收站功能。所有数据全部从硬盘直接删除了,第一时间联系了群晖官方技术也无法恢复。幸亏该员工权限不高,没有涉及到核心数据,这30T数据虽然是测试数据对公司而言比较重要,毕竟重新采集需要一个多月,于是联系了一个朋友提供方案和远程协助,开始了数据恢复。

群晖NAS型号是  群晖DS2422+ 加扩展柜DS 2419+ ,一共24块16T盘组的RAID5,存储空间200T用btrfs格式。

第一步准备硬件。首先当天立即在京东上采购了24块WD 18T氦气盘,第二天中午收到。当天腾开了一台24盘位的华为存储服务器,至少需要准备96G内存,安装上windows server 2012系统,关闭自动更新等功能,用来克隆镜像和恢复数据。准备一个大的网络存储,我这边准备了一台100T的群晖NAS挂载到华为服务器windows server 2012系统上,用来存储恢复出来的数据,因为数据都是随机删除的,只能恢复整个大的文件夹,恢复出来的数据会比删除的大很多。

第二步 利用周末时间,在服务器上通过WINHEX软件克隆了NAS上每块磁盘的镜像到新的硬盘上,克隆这24块16T硬盘的数据用了5天。克隆完后立即恢复原群晖NAS使用,不影响整个公司其他的同事办公,尽可能把影响和损失降到最低。

第三步 把克隆出来的新硬盘都安装在华为24盘位的存储服务器上,注意服务器内存不能小于64G,否则会出现内存不足而导致发生问题。安装UFS PRO版本,注意只有PRO版本才能够恢复RAID磁盘组。

 第四步    开始扫描磁盘数据。200T存储空间的群晖NAS(减去删除的30T,实际用了130T)用这个软件扫描了15天,一共扫出了300T数据。

第五步  把扫描出来的数据恢复到100T的新群晖NAS上。UFS EXPLORER PRO这个软件最大占用内存64G,前面扫描完一次花了15天,最后因为内存太小软件死机了,所以增加内存重新进行第二次扫描,才顺利恢复数据。

幸运的是恢复出来的数据,经过测试这些天的测试全部可以用, 帮公司挽回了大笔损失。经过这次事件,也让我个人收获了很多的经验,总结分享下。

1. 提前做好群晖防删策略,收缩权限。检查挂载的日志权限是否都勾选了,这个是找回和追溯NAS用户行为的最关键线索。定期检查日志,我们这个删除行为持续了3天3夜,如果每天检查日志肯定可以最大防范,可惜群晖没有一个单位时间内删除大容量数据的提醒功能,比如一天内某用户删除了1T的数据,就给管理员发邮件提醒。检查群晖回收站是否开启,回收站是群晖数据最后的保障,万一得以任何时候不要关闭回收站。普通用户绝不要分配删除权限,利用自定义的读和写即可,删除权限赋予部门主管,明确责任。减少群晖管理员,管理员越多出问题的概率越大,这次回收站就是测试组数据管理员打开的。
 

2. 在套件中心 一定安装 snapshot 套件,对整个文件夹定期做快照,防止恶意删除和中勒索病毒,通过快照恢复所有文件。

4. 发现删除行为,第一时间停止群晖写操作。 从发现巨量数据丢失的第一时间,我们就发通知整个公司全部停止写入操作,并在群晖上关闭了所有的写入权限,保留了读让公司业务受影响程度最小。这个也是源于几次电脑硬盘数据丢失数据被找回的经验,数据丢失只要没有被重新覆盖,找回的几率还是非常大的。

5. 立即准备采购需要的硬件。首先准备相同数量的硬盘,容量比之前的要大一点。还有准备一台相同盘位的存储服务器,我的群晖是24盘位,所以找了台华为24盘的存储服务器。准备一个能存放恢复数据的大容量存储,我们上了一台100T的新群晖,网络挂载恢复。

6. 克隆磁盘镜像,减少业务中断时间。为了最大限度减少整个公司使用只读的群晖NAS的影响,利用周末时间,拆下所有硬盘做好标记,放12块原硬盘 和 12块新硬件  放入24盘位的存储服务器上,一一对应克隆镜像。克隆了两次,克隆16T硬盘一次需要36小时,分两次差不多用了4天克隆完,立即恢复原200T的群晖NAS的使用,并打开了写功能,让NAS原来所有业务保持正常使用。整个NAS从发现故障,关闭写功能,到周末关闭NAS克隆镜像花了4天,到打开群晖恢复读写功能,最大化减少了对原业务的影响。

7. 选对软件。网上数据恢复软件多如牛毛,真正能恢复群晖BRTFS格式raid5的没有几个,经过大神指点推荐选择了UFS。之前用的UFS PRO 8.1版本扫描过程卡死黑屏,于是立即升级到9.11版本。同时看到原服务器内存跑满,立即上了320G内存,并监控系统CPU 内存使用情况,CPU占用不大,但是内存最大使用了64G。扫描200T的硬盘raid组 花了15天的时间,真是煎熬,面对未知的结果,和测试同事的催促, 未知等待的过程非常煎熬。好在所有等待都是值得的,最终抢救回来了所有数据,交付测试组测试后全部可用。


数据恢复是一件充满未知性的事情,估计成功的概率和赌博输赢的概率一样。以前有过几次硬盘几GB的数据误删,通过一些数据恢复软件恢复,大部分恢复出来的数据都是乱码这些,这次没想到全部是清晰的目录和可用的原文件。我觉得最大的原因是  群晖用的BRTFS格式的写时复制的特性(类似快照,虽然没有专门去做快照,但相当于通过软件找回了最后一次快照)和RAID5多磁盘数据校验机制无疑是这次全部顺利找回并可用最大的功臣,因为所有数据都分摊在24块不同的磁盘上,重新小批量写入并没有立即覆盖删除之前大容量的数据。其次是31T的数据量巨大,短时间内很难被覆盖和破坏,因为我们一天NAS新写入的数据只有几百G。更主要是发现被删除的第一时间立即停止了所有写操作,后续有条不紊地采取了正确的恢复措施。希望这次的教训能够帮助后面所有遇到这种情况的IT管理和维护人员,面对灾难,不用惶恐和无措,冷静下来,用我的经历给你们一些参考和信心。
 

猜你喜欢

转载自blog.csdn.net/qq_24946447/article/details/128752545