今天的分享是【2023确定性运维***稳定可靠】报告出品方:华为云。
精选报告** 公开标题:全球行业报告库
--数字化时代,**企业云化速度远超预期。 如何真正用好云,在云上实现高效稳定的创新,提升价值,是所有企业共同关注的话题。 为了充分发挥云的价值,实现资源的灵活接入,享受更多“云服务”的便利,各种应用尝试从传统的IT架构向云原生架构转型。 数字化转型已进入“深度云化”阶段,应用不仅要支撑业务创新和用户体验,还要注重安全性、可信度、稳定性可靠、资源效率和业务敏捷性。
--华为云过去几年的快速发展,导致业务量增长了千倍,实现了上述从“慢”到“快”的转变,运维也做出了改变,以满足业务需求。 基于此,华为云开发了“确定性运维、可靠运维”体系,是运维改革的典范。 这一变化完成了运维团队从“消防员”到“建设者”的转变。通过“确定性”的各种能力,支持业务团队“快速”和“稳步”地发展业务。这是一种将运营团队从成本部门转变为生产力部门的做法,使运营转型成为数字化转型的加速器。
能力体系升级
数以万计的云客户,尽管他们操作和维护不同的对象,但面临着许多共同的挑战。 当企业在业务快速增长、数字化转型或深度上云转型过程中遇到可用性管理、责任分工、容量管理、云资源配置、安全生产、效率提升、智能运维能力建设等问题时,华为云SRE将“稳定可靠”实践与云应用维护实践相结合,梳理出以下“稳定可靠”的云系统服务,与传统运维系统相比有以下变化:
在稳定可靠的系统中,运维团队不仅注重可维护性,还更多地参与到产品的架构设计和实现中“产品高可用性体系结构”。
在传统的开发模式中,版本交付受制于长期的质量管理和不频繁的更改(趋于稳态),但现在大多数企业都实现了它“持续交付”。流程(趋于敏捷),为了保证业务的稳定性,有必要强调变更的自动化,以降低风险。
传统业务规模较小时,运维合规压力不大,参与的团队数量随体量增加而增加交货越来越频繁,安全生产的压力和产能需求也越来越大。
稳定可靠的能力成熟度模型说明
1.基本运维
没有工艺,也没有工具进行工艺,操作和维护主要由专家完成,效果没有保证。 运维人员被动应对,疲惫不堪,变化引入重大事件,人为原因占比高重大事件平均恢复时间(MTTR)不确定,安全生产存在较大不确定性。
2.标准化运维
引入ITIL标准化流程,但运维人员仍反应灵敏,变更引入的重大事件得到缓解,人为因素和事件占比降低,琐碎小事纠缠不清MTTR 的平均恢复时间初步有所改善。
3.SRE 转型
运维组织全面开展SRE,运用软件工程手段解决运维问题,构建自动化运营能力、基础设施高可用能力、全方位拨测能力、应急演练能力、负向改善能力在运维业务中建立质量意识和可靠性文化,并追溯性地改进和审查文化。
业务可用性指标 (SLO SLI) 设计定义
1.sli(servicelevelindicator):服务质量的具体定量指标。 并非所有的监控指标都是SLI指标,只有能够直接反映服务对用户服务能力的指标才能成为SLI指标,一般业务的SLI指标应尽可能少、关键。 指标(请求成功率、请求延迟、流量、负载等)是业界SLI指标的最佳实践。
2.slo(servicelevelobjective):服务可用性目标,通常在设计阶段确定。 描述服务可用性的目标要求,通常通过 SLI 指标来衡量。
3.sla(servicelevelagreement):指服务与用户之间的服务级别协议,该协议描述了在达到或未达到 SLO 后的后果(例如,补偿、退款等)。 SLA 是一个业务概念,通常低于 SLO 值。
本文仅供参考,不代表我们的任何投资建议。 如需使用这些信息,请参阅原始报告。 )
精选报告** 公开标题:全球行业报告库