云计算时代频繁的服务中断,凸显了企业面临的巨大运营风险。 建立运营弹性势在必行。
翻译自什么是运营弹性?作者:Robert Kimani 是一位系统工程师和开源倡导者,喜欢分享知识。 他相信帮助他人并以同情心回馈社区。 当他不沉浸在 Linux 中时,他喜欢远足、山地自行车和探索。 数字领域曾经被认为是可靠性的堡垒,企业和组织信任云服务提供商来保持其业务的持续运行。 然而,这种说法正在改变。 最近发生的一系列事件凸显了这些系统中的漏洞以及重大中断的深远影响。 四月适用于欧洲西部 9 区域的 Google Cloud Platform完全停电,持续了一整天。 停电是由巴黎数据中心发生火灾引起的,随后是洪水,这对整个谷歌云平台产生了连锁反应,地区和服务在几天内逐渐恢复。 6月,Amazon Web Services 位于美国东部第 1 区遭受了重大破坏。 由于弹性伸缩操作中的错误导致流量过大,导致内部域名系统和监控系统出现故障。 接下来是一系列连接错误和重试。 中断产生了立竿见影的影响,影响了依赖这一关键区域的数百万用户和企业客户。
这些事件的范围不容小觑。 企业、学校、医院、机构和无数其他企业突然发现自己陷入了运营混乱,这引发了一个基本问题:在云服务中断变得越来越普遍的环境中,我们如何确保业务连续性?
答案在于运营弹性的概念,这是一种策略,允许组织在发生中断时进行调整和响应,同时保持持续运营,确保客户不受影响或根本没有受到影响,即使他们周围的世界处于动荡之中。
随着云服务提供商中断事件的持续增加,运营弹性从未像现在这样重要。 下面介绍了运营复原的详细信息、重要性和实施策略。
运营弹性围绕连续性原则展开,尽管面临挑战,但业务及其核心功能仍在继续。 这是对客户的承诺,无论幕后存在什么中断,他们的体验都不会中断。
它还确保了客户(和组织)数据的安全性,随着时间的流逝,这个问题变得越来越重要。 运营弹性的重要性远远超出了“保持系统运行”的范围,这意味着即使在最恶劣的环境中也能提供坚定不移的产品和服务。
运营弹性面临着许多挑战,从普通到非凡,每一项都可能导致中断。 风险包括:
技术故障,其中可能包括硬件故障、软件错误或基础架构问题。 此类故障可能会对提供持续服务的能力产生连锁反应。
网络攻击网络威胁正变得越来越复杂。 分布式拒绝服务攻击 (DDoS) 或数据泄露等情况可能会损害服务的完整性、可访问性和可靠性。 自然灾害,可能会中断数据中心和基础设施,导致长时间的服务中断。
链条断裂,该组织依赖于一个复杂的**链。 无论是由于地缘政治事件还是物流问题,这些服务的任何中断都可能导致服务中断和经济损失。 运营弹性对金融机构尤为重要,因为它们的运营与全球经济密切相关。 区域范围的中断可能会对金融稳定产生灾难性影响。
如果一家大型云提供商**倒闭,导致大型银行长时间停机,数百万笔交易可能会停止,从而影响消费者和企业。 这一事件的经济影响可能是深远的,凸显了金融部门及其他部门对运营弹性的迫切需要。
运营弹性和业务连续性是密切相关的概念,但它们并不相同。 为了说明这种差异,请考虑一个常见的类比:游戏。
运营弹性:无缝的游戏体验
假设您正在玩一个**游戏,并且您正处于激烈的BOSS战中。 突然,游戏崩溃了。 在运营弹性设置中,游戏旨在无缝处理这种中断。 你按下一个按钮,你回到你以前的地方,好像什么都没发生过一样。
在本例中,播放器代表服务的最终用户。 即使他们遇到问题,他们对组织服务的使用也几乎不会中断。
业务连续性:从保存点加载
现在,考虑到业务连续性,这有点像一个游戏,重点是确保您可以在中断后从中断的地方继续。 当游戏崩溃时,您需要从保存的进度中加载,这可能会丢失一些进度。
因此,运营弹性需要强有力的计划和积极主动的措施,以确保组织在出现问题时能够度过难关。 等待这些罕见事件的发生是不可行的;未雨绸缪是尽量减少其影响的关键。
从本质上讲,操作弹性旨在防止在不可预见的挑战期间结束用户中断,从用户的角度来看,这似乎没有出错。
另一方面,业务连续性确认可能会中断,但重点是最大限度地减少停机时间并确保关键功能的快速恢复。 这两个概念本身都非常重要,它们都有助于组织有效应对数字时代的逆境。
运营弹性不仅仅是客户满意度,它还超越了经济稳定和全球影响等领域。 它是连接现代社会复杂机器的关键部分。
大型云服务提供商中断可能很少见,但不可避免,并且由于气候变化和其他因素,可能会变得更加频繁。 即使是最可靠的提供商也无法幸免于中断。
因此,运营弹性需要合理的规划和积极主动的措施,以确保组织能够抵御风暴。 等待这种罕见事件发生是不可行的;未雨绸缪是尽量减少其影响的关键。
运营弹性不能仅靠言语来实现;它必须嵌入到组织应用程序本身的架构中。 这意味着企业必须将其作为其设计和战略的基本组成部分。
为了真正确保运营弹性,重要的是要认识到依赖单一云提供商的局限性,以及切换提供商的困难。
集成弹性应将操作复原能力集成到每个应用程序的体系结构中。 系统的设计必须以弹性为核心原则。 等待停电发生为时已晚;积极主动的准备是关键。
单个云提供商的局限性传统上,许多组织都依赖于单一的云提供商。 这种方法因其简单性和成本效益而广受欢迎。 然而,缺点是它本质上缺乏运营弹性所需的稳健性。 单个云提供商无法提供多云或与云无关的策略带来的冗余和故障转移。 更换供应商的挑战从一个云提供商迁移到另一个云提供商并不像看起来那么简单。 假设应用程序可以轻松地在提供程序之间切换是具有误导性的。 不同的云提供商具有专有的接口和架构,这使得转换过程复杂且耗时。 面对这些挑战,与云无关的应用程序架构应运而生,成为一种引人注目的解决方案。 这意味着确保应用程序的每个组件都与平台无关。
与云无关的架构提供了可扩展性、灵活性和运营弹性的三重优势。 这种设计有助于根据业务需求轻松扩展,从而实现资源的动态分配。 其固有的灵活性允许添加或替换各种服务和平台,而无需进行大量重写。
也许最关键的是,与云无关的架构通过确保跨多个云服务提供商的互操作性,从本质上增强了运营弹性。 应用程序的每个组件都呈现为与平台无关的,并且可以在不同提供程序之间无缝运行。
这种方法不仅减轻了对锁定的担忧,而且完全符合对未来监管要求的期望,这在不断变化的运营弹性环境中至关重要。 在弹性是一项重要资产的世界中,向云无关架构的过渡已经超越了战略选择,它已成为一种必需品。
随着世界的联系越来越紧密,对运营弹性的需求也在增长,**全球都在通过引入法规来应对,以确保关键服务,尤其是金融行业的关键服务能够承受中断。
这些法规旨在提供一个安全网,保护经济和基本服务免受重大服务故障的影响。
最近的一些例子:
英国站在运营弹性法规的最前沿。 通过 2022 年推出的运营弹性框架,英国当局已指示金融公司在 2025 年 3 月 31 日之前满足特定的运营弹性要求。 这些措施将监管覆盖在组织自身的内部战略之上。 通过满足最低运营弹性标准,首席信息官可以灵活地选择最适合其组织需求的策略,例如运营混合云基础架构或在多个云提供商平台上运行。
欧盟《数字运营弹性法案》(DORA)旨在确保所有数字服务提供商,包括云服务提供商、搜索引擎、电子商务平台和市场,都拥有有效的战略和能力来管理运营弹性,无论它们是在欧盟内部还是外部。 DORA 法规于 2023 年 1 月生效;预计到2024年初,金融实体将合规。
在美国,2021 年 3 月,美联储和其他机构发布了关于运营弹性的指南。 同年5月,拜登**发布了一项网络安全行政命令,其中包含与运营弹性相关的规则。 关于运营弹性的法规正在扩展到金融服务公司之外。 新法规的出台反映了人们对现代服务相互联系的日益认识。
监管范围可能很快会扩展到公用事业、运输和医疗保健等行业,因为它们在日常生活中发挥着关键作用,并被视为基本服务。 监管机构认识到,这些服务的弹性对公共福利至关重要。