扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
作者:汤姆·欧扎克 来源:ZDnet 2008年11月1日
关键字:
在本文中,我们将继续分析在上篇文章中曾经提到过的,导致事件发生的一个以及以上的原因。让我们首先回顾一下已经完成的任务。
作为八步骤问题解决法的一个组成部分,我们利用因果关系链确定了导致事故的直接原因或者说事件的表面原因—由于更换的系统没有被正确配置导致的故障。对于这个主要原因,我们建立了五个为什么根本原因图。具体的情况如图一所示。
图一:八步骤问题解决法的五个为什么根本原因图
下一步的工作就是确定应该怎样在什么时间采取具体行动,对意料以外一连串的事件进行协调和处理。
确定原因
正如图一所示,“为什么”在通常情况下指的是对于采取的行动的一种描述。它可能还包括了事件所造成的系统故障或预定处理程序。在大部分情况下,这些活动或事件得到适当的处理,也是正确命令的结果。是否是意料之外,取决于条件或者内容的变化,是不是会导致问题的发生。
举例来说,工厂入口附近的员工可能利用一个圆桶来放置刚刚被扔掉的火柴。当没有别的东西被放到桶里的时间,这个事件是没有问题的。但是,如果有一天,有人将煤油浸过的旧衣服扔进桶里的话,下一根“还在燃烧的”火柴就可能引起火灾。桶是一样的,并没有变化。将火柴放进桶里的行为也是没有变化。然而,一个条件发生了变化,现在桶里存在可燃材料。
因此,在图一的每个问题的答案中,我们都要对当时发生的不寻常现象进行说明。这也是我在图二中做的工作。请注意,并不是所有的活动都需要相关的条件。我就经常看到被这种问题困扰的团队。不要掉进这个陷阱。
图二:添加核查的条件
阐述内容和核查意见
一旦完成因果图的建立(按照事件发生的时间顺序),下一步的工作就是自下而上按照图上显示的情况,将活动和原因进行配对,并确认已核实的证据是否支持这种活动。在这个时间,假设是不容许的。如果没有可核查的证据(即日志、第一手的观察等),就需要从图中删除不支持的活动或条件。
这样回溯的结果可以确认在可核查的情况下事件发生的具体情况,并且可以为整个事件发生的过程提供一份统一明确的报告。
一旦原因及影响图得到完善,就可以对根本原因进行确认了。
确认根本原因
我发现消除或者改变意料之外的条件在通常情况下比消除操作本身更有价值。在我们的例子中,对具体的设备更换采取的操作本身都是正确的。但,从图二中可以发现,在替代这台特定工作站的实际过程中,至少有一处误解的发生。
因此,如图三所示,该小组确定了根本原因是现有服务验证类型系统被取代的过程中的一个操作或一个步骤。由于这台计算机控制了一套生产系统,而不仅仅是一台标准终端用户设备,所以替换的时间应该采用不同的方法,这包括了改变管理的过程。变更管理需要通知所有受影响的技术团队,其中质量保证测试团队也包括在内。这样就可以避免导致失败的一连串事件的发生。
图三:在原因及影响图上确定根本原因
在这里,我还是要再次强调,调整根本原因和影响关系比其处理表面原因带来的效果更好。我们的方针是找出根本原因以保证安全。确保我们找到的是根本原因的另一个步骤是进行更换操作。如果这时间如果主要事件的发生概率降低到可以接受的水平,那么这就是一个根本原因。
某些时间,单独的一个调整充分地减少面临的风险。由于政治、财政或技术上的限制,危机处理小组不能走的足够远。当这种情况发生的时间,有两种可能的解决方案。首先,危机处理小组可以找出,能够控制或者进行改善的另一点,我们的目标是将变化控制在理想的状态下,而不是为了补救而补救。
第二种解决方案借用了失效模式与影响分析(FMEA)方法提供的原理。失效模式与影响分析(FMEA)方法的作用和根本原因分析法相似。它们之间的主要区别在于使用的时间。失效模式与影响分析(FMEA)方法通常在项目或者系统开始前实施的,以减少或者清除设计存在的问题。失效模式与影响分析(FMEA)方法可以在事件发生的可能性和可探测性之间建立平衡。当事件发生的可能性不能减少的时间,就需要改善可探测性。因此,对于一家公司类说,消除负面影响的快速反应能力是至关重要的。
行动计划
根本原因分析法的最后一步是落实行政、技术或实际控制团队已经对根本原因采取了补救措施。只有这样,才能确保一个正式行动计划的完成。该计划应该包为了减少事件发生的可能性或增加可探测性应该做的工作。对于每项任务的安排,应当将资源分配情况和预计完成日期等数据包括进去。同时不要忘记。应当安排专人负责计划并进行管理。
结论
避免意料之外的事件发生的唯一方法是消除引起事件的根本原因。由于不需要什么额外的操作,表面的问题通常是容易处理的;也不需要团队成员之间进行真正的互相沟通。。但在处理问题的时间,不提高防范的能力,是不可能带来IT服务的改善的。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。