某公司科研部门文件存储服务器 由16块500G硬盘组成RAID5两块硬盘闪红灯 view and edit device 中显示为“新加硬盘”Raid 5信息显示为imcomplete array
送到碟科经工作人员对硬盘进行检测确定有两块盘已损坏,通过软件对其余硬盘进行分析底层数据走向和数据条带大小,客户送修时硬盘依次编号,省却了对14块硬盘分析盘序的时间,利用公司开发的RAID重组软件顺利完成重组,由于数据容量很大,接下来的时间就是漫长的数据拷贝时间了。
对此案例分析为有一块盘先掉线了,阵列继续运行,然后另一块盘过一段时间又出现物理故障,两块盘掉线,导致整个阵列崩溃。
专家提示:
由于大多数使用者对RAID并不是很了解,而且服务器的广告上也太过强调RAID的容错功能,从而误导很多使用者,误以为RAID很不容易出现故障,或者出现故障时RAID本身有处理容错的应变机制,所以不必太费心做数据备份,因而忽视RAID的潜在危险,所以每当RAID出现故障时都是大灾难。
虽然对于RAID5,掉线1块盘阵列还是可以正常运行的,如果超出1块,阵列将无法启动。当阵列掉线超出1块盘的时候,最好不要做强制Online。尤其是在你不知道是哪个盘先掉线哪块盘后掉线的时候,绝对不可以强制Online。RAID5当一块硬盘OFFLINE之后负载会比较重,此时最好做脱机的REBUILD,如一定要在线REBUILD,应尽可能少得对磁盘做高负荷的读写,应保障这个过程的顺利完成。