磁盘阵列(raid)是一种将多块物理硬盘整合成一个虚拟存储的技术。raid模块相当于一个存储管理中间层,上层接收并执行操作系统及文件系统的数据读写指令,下层管理数据在各个物理硬盘上的存储及读写。相对于单独的物理硬盘,raid可以为用户提供更大的独立存储空间,更快的读写速度,更高的数据存储安全及更方便的统一管理模式。磁盘阵列的正常运行是保障服务器中数据正常读写的关键。
服务器raid常见的故障表现:
1、Raid中多块物理硬盘的指示灯报警。
2、Raid中多块硬盘离线。
3、Raid信息丢失,物理硬盘不是online状态。
4、无法进入raid管理界面或查看raid相关信息时死机。
服务器磁盘阵列故障原因分析:
1、Raid中的单块硬盘出现物理故障。
2、Raid数据传输通道不畅或者数据传输模块老化。
3、服务器系统更新、重启或服务器意外断电导致raid信息丢失或raid模块损坏。
4、Raid模块升级或重装系统导致raid信息丢失或被重建。
5、错误插拔Raid中的物理硬盘或者强制硬盘online/rebuild。
服务器raid常见的故障的数据恢复方案:
1、将磁盘阵列中所有运行状态良好的非热备盘完整镜像备份到带有冗余功能的安全存储中,对于存在物理故障的硬盘则按照相应故障类型的解决方案处理,尽可能将故障物理硬盘中的数据镜像备份至安全存储中。
2、基于所有硬盘镜像文件分析,确定故障raid的原结构参数(raid级别、条带块大小、硬盘盘序、数据校验方式等),还需要判断故障raid中各硬盘的离线情况。
3、根据分析所获取到的raid参数及硬盘离线情况在只读环境中重新构建raid,并对新建raid进行逻辑校验。确定文件系统结构无误后将raid生成完整镜像。
4、对生成的raid镜像进行完整的逻辑分析和校验,若文件系统仍存在不一致的情况则依据相应文件系统损坏情况的解决方案进行修复,直至迁移出所有需要的数据。
服务器Raid出现故障后的关于数据安全的Tips:
1、切忌再次让硬盘磕碰或者受到其他物理伤害。服务器raid中任何一块硬盘对于数据恢复都非常重要,如果有硬盘出现严重物理损坏,数据恢复难度将呈几何倍数上升,甚至无法恢复raid数据。
2、切忌重新创建raid或者强制online/rebuild。
3、切忌非专业人士对故障raid的模块进行拆卸、更换等操作,不当操作很有可能对服务器raid中的数据造成严重破坏,甚至导致数据无法恢复。