如何利用故障根本原因分析快速定位故障原因?

小夏 汽车 更新 2024-02-01

背景

众所周知,变化是网络环境不稳定的关键因素,研究表明,70%的在线故障是由某种变化引发的。 因此,当环境收到“关闭”警报时,管理员的直觉是怀疑最近是否有更改。 此时,我们经常需要主动查找变更历史,确认下一次变更的计划,这是一个繁琐且效率低下的过程。

环境故障的另一个原因是服务所在基础结构的负载和饱和度,这会影响服务的容量和性能。

我们希望能够分析环境并分析警报是由于更改还是由于系统负载造成的。 分析结果可以以直观的拓扑形式呈现,我们希望看到服务、它们所依赖的中介和基础设施之间的关系,以及哪里有变化或例外。 如下图所示:

此外,它可以智能地连接告警服务周围的所有业务调试环节,并分析异常的可能原因

这种能力是EasyOps平台分析故障根本原因的能力。 让我们来看看如何配置和制作它们,以及该图代表什么。

实践

首先,定义服务的 SLI。 我们选择检测代码作为服务能力的 SLI,我们认为如果检测代码不为 0,则表示服务不可用。 此时,告警系统将触发严重性级别故障,管理员将收到该故障。

此 SLI 已内置于平台中,需要额外的配置。 我们需要做的就是定义拨号测试收集策略和告警规则。 如:

注意:选择的告警资源类型是服务模型下的模型,在本例中为 HTTP 服务。 平台定义仅对服务资源进行根本原因分析。

只需简单的两步配置,您就可以进行根本原因分析!

效果解释

一旦HTTP服务发送告警,我们可以通过点击【故障分析】跳转到根本原因分析。

以开头的图表为例:

从上图可以看出,红色标示的服务是告警服务,下面是围绕该服务的一系列中介和调度服务,也呈现了服务与服务之间的关系。 拓扑的最低层是基础结构,即主机。

从这个拓扑中,我们可以看出,故障原因的概率是两个操作系统主机进行了更改。 结合右边的传播图,进一步明确了变化的时间点和失效点

从上图可以看出,变化发生在1 18 ,22:03:30,故障发生在1 18 ,22:04:09,因此很明显,故障是由变化引起的。 在上述情况下,确实有缺陷的 ** 包在更改时被释放到生产环境,这使得服务不可用。

在明确故障原因后,管理员可以快速决定后续步骤,例如及时回滚以减少故障修复时间并改进 MTTR。

相似文章

    因行李分拣失败而陷入动荡的南非约堡国际机场已恢复正常

    中新社约翰内斯堡月日电 记者王习 当地时间月日,南非机场公司 ACSA 宣布,南非约翰内斯堡奥坦博国际机场行李分拣系统持续近一周的技术故障已基本修复,机场逐步恢复正常。严重的技术故障始于 月 日,并持续了几天。由于行李分拣系统严重故障,以及平安夜有多名乘客无法按时找到行李,导致大量航班无法正常起飞和...

    使用风水饰品 如何使用貔貔葫芦等饰品来增加财富?

    使用风水饰品来增加财富是许多人追求财富增长的常见策略。其中,貔貅 葫芦被视为吸财能力很强的风水饰品。下面将从命理学和风水的角度解释如何使用这些饰品来增加财富。从命理学的角度来看,貔貅被认为是能够吸收财富的神兽,而葫芦在古代传统中被认为是财富的象征。因此,将貔貅和葫芦作为风水装饰品放在财富或财富领域有...

    如何使用 Recordset 对象打开数据库中的数据记录集

    VBA 数据库解决方案教程 版权所有 是我推出的第二套教程,目前正处于第二版修订版中。这套教程定位于中级水平,是学字典后的另一个专题。数据库是数据处理的有力工具,教程详细介绍了使用ADO连接ACCD和Excel的方法和示例操作,第一版教程的修订内容主要是完成所有程序文件的位和位Office系统测试。...

    王室离奇内幕 梅根离开前,她用好莱坞手段对付凯特,揭开了这个秘密

    梅根 马克尔和凯特王妃之间公开而秘密的竞争,成为近年来王室的热门话题。梅根一直想超越凯特,在王室中展现自己的才华。但王室的公关团队建议她 什么都不做 以此来化解外界的负面情绪。另一方面,梅根坚持采取私下行动,试图通过改变形象和推广她的慈善工作来赢得更多关注。然而 这一系列行为遭到了外界的批评和质疑。...

    本田因燃油泵故障风险而在全球范围内召回约450万辆汽车

    据IT Home月日报道,据路透社报道,本田的美国子公司因燃油泵故障风险,正在全球召回约万辆汽车。此次召回包括 美国有万辆汽车,本田汽车在年召回了,辆美国汽车,年召回了,辆汽车。在提交给美国国家公路交通安全管理局 NHTSA 的文件中,本田表示,本田经销商将更换燃油泵模块计划于年月初通知车主召回 本...