扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
当你不小心将两根网线插入错误的集线器中,一个大学网络将会崩溃。在不合时宜的时间进入数据中心将会导致雇员受伤。当雇员将数据中心恒温器由华氏改成摄氏度后,系统会因为过热而关机。
这些都是愚蠢的数据中心失误。在大量数据中心灾难中,只有少数灾难是由技术故障或自然灾害引起的,大部分灾难都是由于人为过失引发的。
据纽约国际正常运行时间协会(UI)调查显示,在当今困扰着数据中心的问题中,大约70%的问题是由人为推失误导致。UI副总裁Julian Kudritzki称,他们的团队分析了大约4500起数据中心事故,其中包括400起宕机事件。Kudritzki最近也公布了一套规范以保证数据中心业务可持续运作。
Kudritzki对于调查结果表示:“我并不感到惊讶。虽然操作管理极为脆弱,但是这也是避免出现宕机事故的主要办法。好的消息是管理员能够接受再培训。”
无论是由于疏忽、训练不足、终端用户干扰、资金紧缩,还是简单错误,人为错误是不可避免的。Pund–IT公司分析师Charles King称,这段时间以来,由于IT系统日益复杂,数据中心职员工作负担逐渐增加也随之带来许多问题,本该避免的一些小失误甚至也开始出现了。
是用户错误击垮了数据中心吗?看一下这些血淋淋的事故吧。
King说,“劳累过度加上繁琐的高难度工作任何时候都会引发非常糟糕的结果。”随着企业越来越依赖于技术实现业务目标,因此这些错误将变得越来越致命,代价越来越昂贵。
失误的技术员,错误的网线
让我们看一下这个案例。一所大学数据中心交换机发生了过载,原因就是因为IT人员错误地将两个网线插入到了下游端集线器上。学校安全分析师Jeramy Jay Bowers透露称,这一事故四年前发生在印第安纳波利斯的印第安纳大学医学院。
Bowers指出问题产生于不甚完美的网络设计。该事件发生时,Bowers正担任学院的系统工程师。学院的IT部门被分散在两个地点,其中一个机房在医学院大楼,另外一个是在邻近的大学医院内。Bowers说首先这并不是一个理想的配置。
他解释说,该部门使用的是紫色的光纤,光纤通过第一个建筑物的交换机到了第二个地点,又穿过了天花板,通过层层门禁到达了隔壁医院的行政区。由于该网线与位于医院IT房间的12端口交换机相连,因此员工可以轻松地断开医学院的网络,然后通过在墙上的插孔将其连接到医院网络上。
有一天,当Bowers下班后正在慢跑锻炼时,他的iPhone手机响了。电话那头告诉他,医学院服务器的交换机过载导致其所托管的所有服务被拒绝访问。
他解释称: “当有数据包通过时绿色指示灯会不停的闪烁。绿色灯闪亮时间比熄灭时间长表明数据包越来越多。
Bowers很快就开始通过电话排除故障。他能够确定医学院的网络没有变动。这时他想起了紫色的那根网线。他在电话里告诉他的同事拔掉它。拔掉后,交换机恢复至了正常状态。当插回去后,交换机就会再次过载。这证明这个问题在紫色网线的另一端,也就是在大学医院的那栋楼上。
原来,从事某个项目的一名IT人员通常通过卫星定位寻找大学医院的IT房间,这需要额外的连接。他将大学交换机上两根网线切换到了他添加至网络中的一个集成器上,以便他能附加额外设备,从而无意导致了堵塞。
Bowers称:“这样一来就形成了一个回路,数据在这个回路中循环发送。这最终导致医学院大楼内发生数据过载。”
Bowers称,目前大学内的网络和他初到这里工作时一样,所以这种网络设置在他脑子里已经根深蒂固,任何更多好的网络设计在他眼里毫无疑问都会带来问题。不过至少目前IT部门知道今后要避免这种情况发生:临时网线和临时技术员是一个糟糕的搭配。
Bowers称:“我们在此事件发生后并没有正式的从中总结经验教训。我们所做的只是轻描淡写的被告之不要‘再这么做’。”除了这一起事故外,还发生了一起用户无意中在医学院网络中建立了一个流氓无线接入点造成了交换机过载的事故。这两起事故让Bowers彻底明白了一个概念,那就是人为错误导致的问题比技术错误导致的问题要更多。
为节省35美元导致所有数据丢失
数据中心灾难的原因往往直接或间接的与公司节省资金有关。以下这起事故的责任要归咎于节省了35元的备份磁带。
1999年,Charles Barber在一家保健设备公司(现在该公司已经不复存在了)出任技术支持经理。这家公司主要从事制造独立的、基于服务器的保健设备,这些设备可以连接到跑步机上收集病人的应激测试结果。该公司有一个客户是圣路易斯医疗机构,这家机构里的行政助理兼任IT人员。
Barber称:“那名行政助理漂亮能干,但不是一个受过训练的IT专业人员”
一个星期五晚上,她听到服务器发出了异常声音,这时她意识到硬盘发生了故障。星期六,她购买了一块新硬盘,将其安装好并重新装载了微软的WindowsServer和SQLServer。她举动挽救了数据和文件。Barber为她提供了如何配置服务器的书面材料,这样的事以前也发生过,这名助理也处理的很得当。Barber称:“我让一名现场工程师打电话过来协助解决该问题,但是这名助理却不按要求擅自处理起来。”
她花了星期天和星期一大部分时间来恢复数据和测试系统,之后才允许在周一晚些时候对病人进行应激测试,这个测试看起来进行得很顺利。
但在本周二早上,她打电话给Barber称她从备份磁带上恢复到服务器上的全部数据都消失了。
Barber解释称:“这个人每天都为系统做完整备份。不幸的是,当她重新安装备份时,她看到的是只是星期一的病人测试结果。”
因为她只有一个备份磁带,因此她使用这个磁带备份星期一测试结果时并没有想起来现在这个磁带中包含来自服务器的所有历史数据,在备份过程中历史数据被删除了。
Barber说:“备份磁带的费用只有35美元,只要她的主管授权她买第二份磁带,那么他们三个月的数据就不会失去了。当我意识到发生了什么事后,我大约30秒钟没喘过气来。这个人很能干,但是她的主管却不愿意多花35美元购买一份备份磁带。”
视而不见的陷井
有时人们简直是在等待数据中心发生事故,尽管旁观者会很快发现危险,但每天工作在那里的人却对危险视而不见。
EdGould是一位退休的IT专业人员,八十年代中期曾经在芝加哥一家证券公司出任系统程序员。工作一个月后他发现了数据中心一处显而易见的危险。
在这家公司,程序员通常将他们的磁带交给数据中心的管理员,管理员随后会将磁带安装在电脑里。有一天,由于管理员太忙无暇安装EdGould交给他们的磁带,因此EdGould决定自己进行安装。他刚进入数据中心没几步便陷入地板上的一个洞里,那个洞大约有半英尺深,有披萨那么大(该数据中心位于大厦的第七层,被建在架高地板上)。
他回忆称: “我的脚刚好卡在里面。我感到有些疼痛就开始骂人,这时有人过来帮我。”
他问管理员为何在人来人往的地板中间会有个洞。管理员回答说,他们习惯了,这个洞已经存在了两年,他们工作时都会避开这个洞。Gould然后问值班监督员,他告诉Gould不应该进入数据中心,而这里的管理员都知道怎么不落到这个洞里。
在将这个问题逐级汇报给一位副总裁后,这位副总裁告诉他,他是第一个报告在地板有个洞的人,并随后去医院察看了他伤势。最后Gould在急诊室所花费用和被撕裂的裤子得到了补偿,地板也在一两天后被固定好。
他最终发现了该洞是为了容纳一个磁带驱动器系统而切割的,而该系统已经搬迁了。
最令他吃惊的是其他IT人员竟然都对数据中心地板中间的这个危险无动于衷。他称:“我对数据中心管理员们的漠然态度感到吃惊。”
全球普遍存在的误区
如果你需要更多人为造成数据中心浩劫的证据,那么你可以看一下电脑世界网站的Shark Tank专栏。那里收集了近些年来IT管理员提供的大量灾难事故。
在美国亚利桑那州的空军基地工程师John Eyre称,在八十年代中期,基地为整个设施安装了新电缆。新电缆的铺设是为了满足联队微型计算机的安装,每台计算机需要通过同轴电缆连接到终端,供应商们建议用两英寸的渠道把电缆拉到位。
Eyre认为现有渠道较窄,容纳电缆线比较困难,但有人建议项目应尽快开始防止延误工期,Eyre的上司便决定按目前的渠道施工。
Eyre说,当所有的电缆铺设好后,管理层发现每条电缆都带有割伤无法使用。整个安装都必须使用更宽的渠道,因此整个工期被推迟了9个月。
我们从这个事故中可以吸收什么教训呢?Eyre称:“当你急于完成工程以期获得上司青睐时,往往却导致更多的问题发生。”
以下是Shark Tank为我们提供的另一起人为错误的案例。
*由于从空调中泄露出来的氟里昂喷到了数据中心中央,并溅到了许多机架服务器上,最终导致整栋大数里的人被疏散(一名疯狂的技术人员曾经试图用手阻止氟里昂继续泄露)。
*由于备份程序没有进行了为期两周的系统测试,同时未能删除五个月的数据,这导致一所对鹌鹑进行语言感知测试的大学实验室被迫临时关闭。
*服务器机房的工作温度常常会达到100华氏度,即便将数据中心的恒温器设定在64华氏度也是如此。问题出现在有人将华氏度调到了摄氏温度,而数值没有改变。结果会怎么样?驱动器融化了。
最大限度地减少数据中心错误
当数据中心发生灾难时,什么是最大的危险----是系统还是配置和维护这些系统的人?
Kudritzki称:“我认为两者都是。如果你有一个运作良好的数据中心,那么你的设备将在最高水平运行。如果你有一个维护欠佳的数据中心,那么你会看到很多问题。”
Kudritzki补充道,拥有运行良好的数据中心的一部分就是关注维护它的工作人员,正是他们运作或是与这些系统进行互动。经理需要时间对有关人员编制、培训、维修和运作做出整体严谨审慎的决定,尽量避免出现灾难,尽力实现最大正常运行时间。
Pund–IT公司的King警告称,管理不应该采取速战速决的办法去解决那么导致数据中心宕机的人为因素。有经验的管理人员需要拥有深思熟虑策略。
他指出:“解决任何这些人为因素都需要系统性的战略和解决方案,但培训课程往往是狭隘的,常以任务为目的的。”
King称:“虽然大多数工作人员知道他们使用的技术具有系统性特点,但是还是有许多疏忽之处。很少有人认识到数据中心本身是一个十分复杂且相互联系的系统。培训课程和练习应该强调全方位的数据中心管理模式才能帮助解决这一问题。”
减少人为错误的办法
在2010年7月1日,UI公布了一套新规范以帮助提高数据中心的正常运行时间。准则中列举出了一些操作问题,包括人的因素。
名为《数据中心机房Tier标准:可持续性运作》规范阐述了数据中心管理团队的行为与风险是如何影响长期性能的。
UI副总裁Kudritzki指出,如果管理不恰当,即使是最先进的数据中心也会出现宕机。
规范认为在管理当中有四个方面需要注意,以力争让数据中心取得最长正常运行时间。这其中包括人员,不仅仅是人手充足,人员还需要充分具备相关资格。比如说,一个高级(Tier 4)数据中心需要配备两名全天二十四小时现场值班的管理人员。
对于各方面的维护,管理部门还必须做出正确的决策,其中包括预防性维修、日常维护和与生命周期有关的维护任务。
规范中称,培训也极为重要。因为能够对突发事情做出及时反应的雇员能够帮助避免宕机。规范中推荐现场培训、在职培训、厂商培训和正规资格认证。
最后就是数据中心的整合规划、协调和管理。规范中推荐管理员制订数据中心机房规定、资金管理规定,充分利用空间、能源和冷却管理工具,力争使机房达到ITIL(信息技术基础设施库)标准。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。