分析:部署应用云计算出了问题应该找谁?
同时,软件服务新兴企业Workday有大约100个客户使用其基于云计算的人力资源、工资单和财务应用程序。Workday的服务在9月24日中断了15个小时。在这个案例中,部署的备份系统发挥了作用。它检测到了一个破坏的存储节点,但是它后来却让自己离线了。内置冗余功能的一个系统的冗余备份引起了这个故障,这是具有讽刺意味的。Workday共同首席执行官Aneel Bhusri在博客中称,这种错误不应该引起存储阵列离线,但是,它确实引起了这个故障。
据说Workday对于这个事情处理得非常好。但是,业内人士Mary Hayes Weier在10月9日发表的博客对这次中断事件的评论吸引了一些感兴趣的读者对谁应该承担责任发表了自己的评论。
Weier指出,IT部门内部也发生故障。下面是一个读者对这个想法的看法:他说,如果一项直接由公司IT人员提供技术支持的服务发生故障,这些技术人员会遭到首席执行官和首席财务官的批评。如果负责技术支持的是厂商,首席信息官遭到什么批评取决于谁首先选择的这个软件服务。
另一位读者说,这个问题取决于客户和厂商之间的服务级协议。他说,如果这个合同是要保证每年的某些开机时间,即使出现这次中断,他们仍然可以保持在大约99%的开机时间以上。在“正常的”美国时间发生的中断是更容易注意到的。对于工资单等企业核心应用程序来说,我询问Workday为什么没有热容错功能,或者热容错功能是否也出现了故障。我认为15个小时的中断确实是不可接受的,特别是如果这个服务打乱薪金周期的话。
另一位读者说,应该由许多方承担责任。他说,像Workday那样的云计算提供商需要执行首席执行官要求自己内部的首席信息官机构通过SLR/SLA(服务级协议)执行的同样的严格标准。但是,那个首席信息官机构仍需要承当由于云计算中断造成的混乱和困惑的责任,因为那个机构现在和将来都要负责使用技术理顺信息丰富的后台处理。备份策略仍是那个首席信息官机构的责任。
这是有趣观点。谁为T-Mobile不能恢复用户的数据负责?T-Mobile还是微软?还是微软的Danger分公司?数据中心的工作人员?还是选择Sidekick服务而没有确保拥有一个数据保护担保的人?
这是云计算的一个全新的领域。每一个人都需要提出这些正确的问题。