没有业务连续性的数字化?忘了它吧!
业务连续性在VUCA世界中发挥着越来越重要的作用
业务流程的数字化应导致它们提供更好的体验,并变得更有效率。然而,这些好处往往也导致利益相关者对所使用的IT系统越来越依赖。因此,在这篇文章中,我强调了日益重要,但也经常被遗忘或只在技术上得到解决的业务连续性主题。
Index
更高、更远、更快:这是目前在我们社会的许多层面推出的许多数字化倡议的信条。IT系统在其中发挥着越来越核心的作用,无论是在超市结账时独立付款、预订假日旅行、看病(有时不再需要),甚至是选举新政府。因此,这些IT系统的用户越来越依赖于它们的正确运作–有时甚至过于依赖。解决业务连续性的问题有助于解决这一期望,以及其他问题。
数字化往往会增加整个系统的复杂性
对于通过IT系统处理(潜在的关键)价值创造过程所带来的所有优势,有一个主要的缺点:使用所需的软件和/或硬件堆栈所产生的额外复杂性。这意味着数字化的业务流程有可能被破坏,甚至更容易中断。希望的原则决不能在这里应用。IT系统失败或 “配套设施 “突然发生变化并可能造成破坏,影响其运行,这只是一个时间问题–不幸的是,往往不是为了更好。
一个很好的例子是今年发生在Meta公司(前身为Facebook)的故障:不仅广泛使用的服务WhatsApp、Facebook和Instagram不再能够访问,而且Meta公司的员工甚至不再能够进入某些公司大楼和会议室,也无法发送外部电子邮件。可以说是全面的 “全面打击”。
问题最终是如何解决的?有传言说,一队技术人员不得不被派往加州的一个数据中心,手动重启受影响的服务器。一个令人眼花缭乱的例子是,一个突然发生的系统故障(事实证明是由于配置的改变),具有深远的全球影响,其处理和最终的解决是由不得不部分建立在临时基础上的程序管理的。业务连续性的一个很好的例子。
什么是业务连续性?
业务连续性一词描述了一个公司或组织在发生破坏性事件时在预定范围内继续提供产品或服务的能力。
在大多数情况下,破坏性事件不是一个简单的IT系统故障(例如,公司所在地的访问系统故障不一定要被视为破坏性事件,尽管它也有潜在的破坏性),而是一个导致整个价值链突然受损的事件。一个例子是目前猖獗的SARS-CoV-2的 “Omicron “变种,该变种在圣诞节期间导致全球数以千计的航班被取消,因为受感染的飞行人员不得不进入隔离室。
识别风险并确定优先次序
“首先,你想得更多,其次,事情的结果也不同。” 这句流行语的变体意在指出,通常值得对破坏性事件采取预防措施。即使事件在灰色理论和 “丰富多彩 “的现实中有所不同,但至少已经让员工对事件的发生有了敏感认识,如果有必要,甚至采购了在灾难发生时不容易获得的必要资源。上述大流行病开始时的防护口罩的例子大家肯定都很熟悉,但比如说,为了在电力故障或关闭的情况下能够继续运行核心系统而采购应急发电机的情况呢?
因此,业务连续性的最重要基础是,在整个公司内认识、分析和管理破坏性事件。在最简单的情况下,人们保持一个最新的潜在事件清单,它们的影响和适当的措施,在紧急情况下限制它们。编制这样一份清单的最佳方式是参考官方的一般资料和具体部门的分析,并以在组织层面确定的风险事件作为补充。对事件进行分类,例如分为 “社会”、”政治 “或 “技术 “等类别,使其更容易维护和交流。
让我们面对现实吧:由于为假设的事件做准备不属于人类的天性,因此也不属于人类群体的天性,因此在实施措施时,根据相关风险的优先次序来计划这些措施是值得的。通过这种方式,可以集中资源,使实施措施所需的努力不大,从而更有可能获得适当的资金。
例如,对单一事件的临界值的简单估计可按以下方式进行。
关键性事件=事件发生的概率(如每年)x事件的影响(如财务或作为一种替代指标)。
因此,对于一个事件列表,我们可以单独估计其关键性,并优先实施那些影响最关键事件的措施。例如:对一家虚构公司的破坏性事件的全球评估表明,”电力短缺 “和 “半导体部件的交付问题 “的风险将被列为最关键的风险。
衍生的措施 “购买应急发电机 “和 “建立半导体元件库存 “应作为优先事项相应实施,并启动相应项目。针对其他破坏性事件的措施将在以后采取,或者,如果其关键性已被提升,则在时间上提前(见下文)。
作为一个持续的过程,制定和实施措施
当然,现在出现的问题是,当相应的事件发生时,到底可以采取什么措施来确保足够的业务连续性。正如一开始提到的,这需要各种措施来描述受影响的价值创造过程继续提供产品或服务的程度。
这里可能的方法是定义与产品或服务质量有关的质量参数,以及定义必须恢复有限价值创造过程的时间段。对于后者,所谓的恢复时间目标(RTO)和恢复点目标(RPO)是特别有名的,但人们不应回避创建自己的指标。
可以采取哪些类型的措施?确保业务连续性的措施可以在不同层面上采取,例如在以下层面上采取
- 组织层面
- 过程组织或过程水平
- 技术水平
- 法律层面
尽管其他类型的措施,例如在公司沟通层面,也是完全可能的。
特别是来自信息和通信技术部门的组织往往倾向于关注技术措施,而忽视了其他方面。在这种情况下,尽可能全面地制定和实施业务连续性计划(BCP)是极其重要的,否则就不可能保证保持充分的价值创造。
让我给你举个例子。将在线订单整合到你的虚构网店的移动应用中,导致现在有很大一部分用户使用它来下订单。在一个糟糕的周五下午,你的支持热线突然接到成堆的电话,人们抱怨他们无法再在移动应用程序中下订单。
经过一些反反复复,结果发现你们的订购平台,即由一个云供应商托管的平台,受到那里的故障影响。只有在星期六下午,当供应商宣布你的订购平台所在的可用性区域(AZ)的中断问题已经解决时,情况才会有所缓解。当然,此时已经有许多投诉(在社交媒体上也是 “未经宣传 “的性质),许多顾客决定到其他地方订购。财务损失是相当大的。
在业务连续性方面,你可以提前采取哪些措施来应对这一风险?在技术层面上,如果你的运营机构在早期阶段就被告知云供应商的中断(例如通过相应的通知),而且,如果你的订购平台被托管在不同的AZ上,这当然是有利的。
此外,如果有相应的程序,支持部门可以被告知现有的中断情况,以便能够直接向打电话的客户提供信息,并可能向他们提供一个替代的订购选项(例如通过网络表格)。
最后但并非最不重要的是,你可以–我们假设它是一个COTS解决方案–在你的订购平台的维护合同中确保任何服务故障都得到经济补偿。在这一点上,你和我肯定会想到进一步的措施。但在这里也要记住。并非所有的措施都有相同的效果,这就是为什么这些措施也应该被优先考虑。
作为一个持续的过程,制定和实施措施
你可能已经注意到,得出和实施业务连续性措施不是一件小事,而是需要一些时间。但还有一点:由于威胁组织价值创造的事件的性质在不断变化,所以只得出并实施一次措施是不够的。最好是把业务连续性和通过措施保证业务连续性看作是一个持续的过程,采取戴明循环的形式。
因此,你应该遵循 “计划–执行–检查–行动 “的简单模式,定期检查你的措施的相关性和有效性,必要时予以纠正。我知道这不是一项容易的工作,在某些情况下根本不可能。然而,即使是孤立的应急演练–在上述案例中,例如,订购平台的维护没有被支持组织知道–也已经可以帮助检查措施的实施质量。简而言之:敬请关注。
业务连续性在VUCA世界中越来越重要
简称 “VUCA“,代表着 “波动性、不确定性、复杂性、模糊性”,经常被用来描述我们世界的现状。你不一定非得是个悲观主义者,才会对这一描述附上一些真相。正是这种动态的、越来越不可预测的环境,加上与数字化相伴而生的技术复杂性的增加,使得业务连续性的话题对各种规模的组织都越来越重要。因此,请继续关注–即使是小的步骤也很重要。
Comments are closed.