群晖NAS误删30T数据全部成功恢复并可用实战全过程

公司同事即将离职，不知道是无意还是恶意删除了公司200T共享存储空间的群晖NAS上30T的数据。电脑利用SMB协议挂载开机挂着删，删了三天三夜，直到第三天同事工作用着用着数据，突然就没了才发现有人在删除整个NAS里面的测试数据，第一时间打开群晖的日志找到了这个同事的ID还在不停的删除数据，立即强制关闭了他的电脑。

要命的是因为数据经常需要采集写入和删除更新，不是那么重要，测试组的数据管理员对这个目录也一直没有开启回收站功能。所有数据全部从硬盘直接删除了，第一时间联系了群晖官方技术也无法恢复。幸亏该员工权限不高，没有涉及到核心数据，这30T数据虽然是测试数据对公司而言比较重要，毕竟重新采集需要一个多月，于是联系了一个朋友提供方案和远程协助，开始了数据恢复。

群晖NAS型号是群晖DS2422+ 加扩展柜DS 2419+ ，一共24块16T盘组的RAID5，存储空间200T用btrfs格式。

第一步准备硬件。首先当天立即在京东上采购了24块WD 18T氦气盘，第二天中午收到。当天腾开了一台24盘位的华为存储服务器，至少需要准备96G内存，安装上windows server 2012系统，关闭自动更新等功能，用来克隆镜像和恢复数据。准备一个大的网络存储，我这边准备了一台100T的群晖NAS挂载到华为服务器windows server 2012系统上，用来存储恢复出来的数据，因为数据都是随机删除的，只能恢复整个大的文件夹，恢复出来的数据会比删除的大很多。

第二步利用周末时间，在服务器上通过WINHEX软件克隆了NAS上每块磁盘的镜像到新的硬盘上，克隆这24块16T硬盘的数据用了5天。克隆完后立即恢复原群晖NAS使用，不影响整个公司其他的同事办公，尽可能把影响和损失降到最低。

第三步把克隆出来的新硬盘都安装在华为24盘位的存储服务器上，注意服务器内存不能小于64G，否则会出现内存不足而导致发生问题。安装UFS PRO版本，注意只有PRO版本才能够恢复RAID磁盘组。

第四步开始扫描磁盘数据。200T存储空间的群晖NAS（减去删除的30T，实际用了130T）用这个软件扫描了15天，一共扫出了300T数据。

第五步把扫描出来的数据恢复到100T的新群晖NAS上。UFS EXPLORER PRO这个软件最大占用内存64G，前面扫描完一次花了15天，最后因为内存太小软件死机了，所以增加内存重新进行第二次扫描，才顺利恢复数据。

幸运的是恢复出来的数据，经过测试这些天的测试全部可以用，帮公司挽回了大笔损失。经过这次事件，也让我个人收获了很多的经验，总结分享下。

1. 提前做好群晖防删策略，收缩权限。检查挂载的日志权限是否都勾选了，这个是找回和追溯NAS用户行为的最关键线索。定期检查日志，我们这个删除行为持续了3天3夜，如果每天检查日志肯定可以最大防范，可惜群晖没有一个单位时间内删除大容量数据的提醒功能，比如一天内某用户删除了1T的数据，就给管理员发邮件提醒。检查群晖回收站是否开启，回收站是群晖数据最后的保障，万一得以任何时候不要关闭回收站。普通用户绝不要分配删除权限，利用自定义的读和写即可，删除权限赋予部门主管，明确责任。减少群晖管理员，管理员越多出问题的概率越大，这次回收站就是测试组数据管理员打开的。

2. 在套件中心一定安装 snapshot 套件，对整个文件夹定期做快照，防止恶意删除和中勒索病毒，通过快照恢复所有文件。

4. 发现删除行为，第一时间停止群晖写操作。从发现巨量数据丢失的第一时间，我们就发通知整个公司全部停止写入操作，并在群晖上关闭了所有的写入权限，保留了读让公司业务受影响程度最小。这个也是源于几次电脑硬盘数据丢失数据被找回的经验，数据丢失只要没有被重新覆盖，找回的几率还是非常大的。

5. 立即准备采购需要的硬件。首先准备相同数量的硬盘，容量比之前的要大一点。还有准备一台相同盘位的存储服务器，我的群晖是24盘位，所以找了台华为24盘的存储服务器。准备一个能存放恢复数据的大容量存储，我们上了一台100T的新群晖，网络挂载恢复。

6. 克隆磁盘镜像，减少业务中断时间。为了最大限度减少整个公司使用只读的群晖NAS的影响，利用周末时间，拆下所有硬盘做好标记，放12块原硬盘和 12块新硬件放入24盘位的存储服务器上，一一对应克隆镜像。克隆了两次，克隆16T硬盘一次需要36小时，分两次差不多用了4天克隆完，立即恢复原200T的群晖NAS的使用，并打开了写功能，让NAS原来所有业务保持正常使用。整个NAS从发现故障，关闭写功能，到周末关闭NAS克隆镜像花了4天，到打开群晖恢复读写功能，最大化减少了对原业务的影响。

7. 选对软件。网上数据恢复软件多如牛毛，真正能恢复群晖BRTFS格式raid5的没有几个，经过大神指点推荐选择了UFS。之前用的UFS PRO 8.1版本扫描过程卡死黑屏，于是立即升级到9.11版本。同时看到原服务器内存跑满，立即上了320G内存，并监控系统CPU 内存使用情况，CPU占用不大，但是内存最大使用了64G。扫描200T的硬盘raid组花了15天的时间，真是煎熬，面对未知的结果，和测试同事的催促，未知等待的过程非常煎熬。好在所有等待都是值得的，最终抢救回来了所有数据，交付测试组测试后全部可用。

数据恢复是一件充满未知性的事情，估计成功的概率和赌博输赢的概率一样。以前有过几次硬盘几GB的数据误删，通过一些数据恢复软件恢复，大部分恢复出来的数据都是乱码这些，这次没想到全部是清晰的目录和可用的原文件。我觉得最大的原因是群晖用的BRTFS格式的写时复制的特性（类似快照，虽然没有专门去做快照，但相当于通过软件找回了最后一次快照）和RAID5多磁盘数据校验机制无疑是这次全部顺利找回并可用最大的功臣，因为所有数据都分摊在24块不同的磁盘上，重新小批量写入并没有立即覆盖删除之前大容量的数据。其次是31T的数据量巨大，短时间内很难被覆盖和破坏，因为我们一天NAS新写入的数据只有几百G。更主要是发现被删除的第一时间立即停止了所有写操作，后续有条不紊地采取了正确的恢复措施。希望这次的教训能够帮助后面所有遇到这种情况的IT管理和维护人员，面对灾难，不用惶恐和无措，冷静下来，用我的经历给你们一些参考和信心。

群晖NAS误删30T数据全部成功恢复并可用实战全过程

猜你喜欢