一次令人无语的RAID阵列维修记录
实验室有两台同型号不同批次的8盘位硬盘柜,一台用于冷备份,一台给NAS用;二者都是通过SAS线接到主机的LSI阵列卡上来通信。
故障显现
某一天,因为要收拾实验室,就搬动了冷备用的电脑与硬盘柜。等到再次通电开机时,发现阵列卡开机自检环节就过不去,进度多次到100后又归零,然后就蜂鸣器就开始响。没办法,就只好先拔掉SAS线,先开机再插上去。
此时打开Megaraid Storage Manager,能够识别到硬盘柜,但也会报警;没办法,警报实在太吵,进Logical选项卡,右键Controller选择Disable Alarm,终于安静下来了。
右键Controller选择Scan Foreign Configuration,还好,能识别到8块盘的正常,然后选Import导入,此时问题出现:有一块盘Failed,Virtual Drive整体处于降级状态。 不过因为组的是RAID10,坏一块盘数据还能浏览,问题(应该)不大。
因为已经过保,就想办法自己解决下先。
首先尝试用MSM进行重建,然而报错如下
1 | Controller ID:0 Rebuild failed due to target drive error: PD Port B:0:0 |
在网上翻了很多资料,也没什么有价值的信息。
更换硬盘
因为尝试重建失败,而且用Diskgenius也获取不到对应盘的SMART信息,因而以为是这块硬盘坏了。(其实当时尝试把这块盘装到其他电脑上,也能获取到SMART信息,但被网上说可能是因为RAID对SMART要求更严格的信息误导了…)
求助硬盘柜的客服,也没有给出什么有用的信息(还是Scan Foreign Configuration-Rebuild那一套),因为过保、其仅能寄修不能上门,且硬盘数据不能外传,因此问对方能否直接更换硬盘,得到了可以尝试的答复。
于是买了一块同型号硬盘(¥2k+,14TB容量的硬盘真是奇葩,好难买),结果买了新的硬盘换上也没用,也不能退,寄(虽然能报销)。
此时才想到NAS用的是同型号的硬盘柜,可以试下将冷备硬盘放到NAS用硬盘柜中再接到冷备的电脑上,看下到底是不是硬盘问题。废了一番功夫装上硬盘,开机,重建,正常进入流程,并在十几个小时后重建成功了,重启后也一切正常(重建过程中数据读取灯一直为读取状态,但是硬盘确没有声音,因此认定硬盘内数据并没有损坏,这次重建只是全盘校验了一遍)……而此时再把硬盘装回冷备硬盘柜,连接电脑,开机,还是一样报错。
虽然绕了一大圈,但是退一万步,至少确定了问题不在硬盘上(而且等过几年真有硬盘坏掉就不用再临时买备用盘了(
此时又发现,有时重启冷备主机后只能识别到7块硬盘,干脆不认“故障盘”了,因此更加确信是硬盘柜出现故障。
寄修盘柜
只好寄修硬盘柜,因为认为是其自身的问题,就寄了空柜过去;
在微信联系的客服送修,结果寄出后一个星期都没有回复;只好打电话过去,得知当时跟我交接的客服已经离职了(…),对方表示会尽快帮忙维修——然而接下来又等了半个月,催了一次后终于搞定了——对面说“清灰之后就正常了”,因此不收维修费,只要我出快递费就好了。真是不错,虽然白买了硬盘,还拖了这么久,至少没再花维修钱而且修好了……吗?
当我把硬盘装上寄回的硬盘柜后,依然出现硬盘识别问题,甚至更严重了——这次只能识别5-6块盘,重启一次识别数还会变化,直接无语……这还不是最糟糕的,当我再次尝试把这些硬盘装到NAS用的硬盘柜内,再接到冷备份用的电脑上后,发现它居然只能识别slot0-3上的4块硬盘!
我的心直接凉了,不会是装硬盘时大力出“奇迹”了吧!
冷静冷静,再折腾下试试——把硬盘的上下顺序掉换一下,开机,发现识别的还是4块盘,但是识别到的是换到slot0-3盘位上的盘——原来硬盘没被搞坏。
但这台NAS用的硬盘柜分明没有问题啊?这次终于想到,问题可能出在一开始就忽略掉的LSI阵列卡上……
阵列卡!?
拔掉NAS主机上的LSI阵列卡,插到冷备主机上,连接SAS线,开机——全部硬盘均能识别。虽然还是提示有块盘Failed(就是最开始的那块“坏盘”),但是经过第一次换硬盘的经验,硬盘里面的数据应该是一切正常的,只是之前读取失败导致的Failed状态保留下来了;
理论上这次不用浪费时间进行重建了。于是,右键对应硬盘,选择Make Drive Online——一切正常了。
真是没有想到,最后居然是阵列卡的问题?但是第一次进行硬盘柜交换时就能正常识别,为什么第二次交换后就出了问题?这期间也没动过阵列卡。
本来打算再次寄修这块冷备用阵列卡,但是这次涨了教训,为了防止再白忙活一趟,干脆把它又装到了NAS主机上测试,结果竟然能正常工作。
说明这块阵列卡并没有坏掉……?
由于之前进行的互换实验并不充分,而且也不知寄修后售后方具体进行了哪些操作,故障好的莫名其妙,网上资料又太少,导致没法具体证明问题的源头……
但是这一系列问题,很可能只是因为阵列卡与主板接触不良导致的……吗?
电源线!!??
然而,没过几天,再次上电的时候又出现了掉盘情况——Slot6的盘完全识别不到了。这下是真的没办法了……难道是供电问题?但是电源和硬盘柜是一体的啊。算了,死马当活马医吧,换了一根电源线,居然又正常了……
结束(?)
这次真的是让人崩溃,真不知道问题出在了哪里……资料太少,甚至都不知道能找谁来修,只能自己折腾,至少现在暂时又能用了……
看到这篇文章的难兄难弟,遇到莫名其妙的RAID问题可以试下插拔阵列卡或者换根电源线……