独家:存储系统失效的背后黑手分析

来源:IT专家网  作者:胡超明
摘要:月有阴晴圆缺,天有不测风云。存储系统如果设计不当或者维护不够的话,就有可能会失效。由于在存储系统中存储着企业日常工作所需的大部分数据。为此当存储系统出现故障的时候,企业的日常业务就有可能陷于瘫痪。…

虽然一些存储系统,如RAID磁盘阵列技术,可以挽回硬盘物理故障所导致的数据损失。如现在有六块硬盘组成一个RAID5磁盘阵列。此时如果有一块硬盘出现了物理故障,此时出现故障的硬盘中的数据仍然可以被修复。但是这也只限于一块硬盘出现物理故障。也就是说,当两块硬盘出现物理故障,如同时出现坏区或者因为电压不稳定的原因导致硬盘出现损坏,此时损坏的数据就无法进行恢复。在实际工作中,不少的管理员会忽视硬盘物理故障所导致的系统失效。他们总以为,硬盘不会出现物理故障。但是当正的出现故障了的时候已经来不及了。

硬盘的物理故障比较难以排除。因为造成这一故障的原因太多了。不过通过如下的努力,仍然可以在最大程度上降低硬盘等存储设备物理故障的几率。如为存储服务器能够配置独立的稳压器,以保证提供稳定的电压,防止硬盘等敏感设备由于电压不稳而烧坏阿。如在配置存储服务器的时候,如果需要用到磁盘阵列等技术,则硬盘最好能够采用相同规格的。特别是对于生产用的存储服务器,要用新的硬盘。现在硬盘等存储介质的价格比较便宜,企业还是可以接受的。最后一点就是周边环境的管理,如最好将存储服务器放在独立的机房中,以确保比较少的灰尘、一定的湿度等等。这些措施虽然不能够百分之百的保证硬盘不出现故障(有时候可能硬盘本身的原因从而导致硬盘运行出现问题),但是仍然可以在很大程度上提升硬盘的使用寿命,从而减少存储系统由于硬盘故障而出现失效状况的几率。

三、服务器升级不当导致存储系统失效。

存储系统跟其他软件一样,由于企业业务需求的变化,也需要对其进行升级。但是在实际工作中,经常有企业会遇到因为升级不当而导致存储系统在短时间之内处于瘫痪的境地。如以前有一个客户,需要为存储服务器加一条内存。但是由于新加的内存与系统原由的内存与主板不兼容,从而导致存储服务器运行出现故障。新加的内存不但没有提高服务器的性能,反而使得系统运行的更加慢了。

类似的情况还有很多。如有些用户在升级完操作系统之后,却发现原有的裸机设备无法识别(没有格式化的硬盘分区。由于没有文件系统,所以数据存储与访问的效率比较高)。裸机存储设备没有文件系统,当操作系统升级之后有些应用系统就无法找到或者识别。如在软件升级的过程中,由于出现断电等原因,导致软件升级失败。此时如果没有自动回滚的机制,则原先旧版本的软件也将无法使用。

总是无论是软件还是硬件,对其进行升级都存在一定的风险。为此如果没有特别充分的理由,最好还是不要轻易对存储系统进行升级为好。如果确实要升级的话,则在升级之前需要进行充分的测试。如对操作系统进行升级,则需要测试现有的应用能够在更高版本的操作系统上使用。如是硬盘升级的话,则要确保新增加的硬件跟现有的硬件与软件是兼容的。最好是采用跟现有硬件相同牌子或者相同规格的硬件。从而确保最大的兼容性。

存储系统失效其中人为因素为主导。也就是说,只要管理跟的上,那么系统出现停机的时间会大大缩短。自然灾害、硬件质量等等难以克服的原因,其实发生的并不是很多。所以为了减少系统当机的机率,还是要从管理上抓起、从认识上加以重视,特别是不不能够有麻痹大意的思想。

【相关文章】好搜一下
x86如何改变高性能计算领域的格局

x86如何改变高性能计算领域的格局

在一个以性能为王的领域,如果想建立其他游戏规则似乎并不容易。然而,对于高性能计算…