服务器数据恢复环境:
某品牌ProLiant DL380系列服务器,服务器中有一组由6块SAS硬盘组建的RAID5阵列,WINDOWS SERVER操作系统,作为企业内部文件服务器使用。
服务器故障:
机房供电几次意外中断,服务器出现故障前最后一次异常断电重启后RAID报错,提示无法找到存储设备,进入RAID管理模块做任何操作都死机,重启服务器后问题依旧,用户联系北亚企安数据恢复中心寻求帮助。
服务器意外断电导致RAID故障(包括RAID管理信息丢失和RAID硬件损坏)的情况并不少见。RAID创建完成后,RAID管理模块信息一般不会再发生改变,但RAID管理模块信息是可修改的信息,磁盘阵列意外断电也经常会导致RAID管理信息被篡改或者丢失。多次断电甚至有可能导致RAID卡元器件损坏,从而导致服务器失去对多块物理硬盘进行RAID管理的中间层模块。本案例中的故障表现如在RAID模块的任何操作都导致死机的现象就极有可能是RAID卡硬件损坏引起的(后经服务器厂家售后人员验证确实如此),如果是这种情况,通过常规方法已无法获取RAID5阵列中6块硬盘的数据,只能通过专业的数据恢复技术手段来恢复服务器的数据。
服务器数据恢复过程:
1、将故障服务器中所有磁盘编号后取出,由硬件工程师对6块SAS硬盘进行物理故障检测,检测结果是这6块硬盘读取状态良好,无明显的物理故障。
2、以只读方式将所有磁盘进行扇区级全盘镜像,镜像完成后按照编号将所有磁盘还原到故障服务器中,后续的数据分析和数据恢复操作都基于镜像文件进行,避免对原始磁盘数据造成二次破坏。
3、基于镜像文件对原RAID5阵列的结构进行分析,获取盘序、数据块大小、校验方式等重组raid5阵列所需要的信息,根据获取到的信息重组RAID5阵列。
4、重组完成后对所RAID5阵列中的数据进行逻辑校验,在确保重组RAID所使用的参数正确无误后,针对用户所需要恢复的重要数据进行验证。
5、经过验证,用户确认恢复出来的数据完整有效,认可数据恢复结果。协助用户方将所有数据迁移至用户准备好的生产环境中。本次数据恢复工作完成。
服务器数据安全Tips:
1、尽最大可能保证机房供电稳定,减少供电异常对服务器及存储造成的破坏。
2、为重要的服务器及存储配备UPS,在意外断电的情况下能保证核心业务能继续维持一段时间的运行,为应急方案实施赢得时间。
3、定期对服务时间长的服务器进行安全状况检查,并对整体运行状态进行评估以决定是否进行硬件及系统的升级。
4、提前制定突发数据灾难的应急处理方案,降低数据灾难造成的损失。