帮助手册

使用事件关联进行故障排除

事件关联将来自多个模块(如应用程序、数据库、服务器和网络组件)的相关事件连接起来,形成事故的统一视图。通过关联来自不同来源的症状,帮助定位根因并加快解决速度。

Site24x7 将相关事件关联起来并列出可能的根因,帮助用户验证原因、深入查看详情、分配或自动化修复操作、传达状态更新、追踪重复出现的模式,以及记录发现结果供日后参考。

使用场景

以下使用场景说明了事件关联如何将相关告警归组为"问题",以实现高效的根因分析和简化的事故故障排除。

场景 1:定位应用性能监控瓶颈

应用程序性能下降时,精确定位原因可能颇具挑战。例如,设想应用程序的健康状态突然下降的情况。事件关联配合因果分析,将相关事件串联起来以揭示根因。

在此场景中:

  • 事务异常激增(从 40 次增至 180 次)。
  • 数据库服务器出现新的 SQL 超时异常。
  • SQL 执行时间增加(从 1,601ms 增至 30,105ms)。
  • 响应时间增加(从 615ms 增至 2,573ms)。

通过将这些问题连接到单一因果路径,平台支持对失败和成功的事务追踪进行比较,揭示执行流程中的偏差、组件延迟和错误点。

这种有针对性的洞察可帮助您更快解决问题,最大限度减少宕机时间,并确保稳定的服务交付。

场景 2:隔离网络缓慢的真正根因

在拥有众多交换机、防火墙和路由器等设备的网络中,同时发生的事件很快会令人应接不暇。事件关联通过关联相关事件并过滤噪音来简化这种复杂性,从而揭示真正的原因。

考虑交换机响应时间突然飙升的情况。系统分析来自该交换机路径上(通过二层拓扑图)所有网络设备在同一时间发生的事件:

  • 网络流量监控:在被监控的接口上检测到异常带宽峰值(例如,来自特定应用程序或源地址的流量突然增加)。
  • NCM:防火墙上发生了最近的配置变更。
  • 防火墙:规则被修改(例如,端口过滤器调整)。
  • 交换机:独立设备上的 CPU 峰值。
  • 属性级指标:响应时间(延迟)峰值。

无关事件(如不相关的 CPU 峰值)被过滤掉。通过将 NetFlow 流量激增与 NCM 防火墙配置变更相关联,创建了一个关联问题,并将其列为交换机响应时间下降的可能根因。

场景 3:识别导致网站应用程序故障的原因

Web 应用程序中,面向用户的问题(如错误或响应缓慢)可能源于多种底层原因。事件关联帮助将症状与相关的基础设施和服务事件联系起来,以快速定位根因。

当用户在 Web 应用程序中收到 502 Bad Gateway 错误时,可能存在多个底层原因。

在此场景中,Site24x7 分析并发事件:

  • 无关服务器上的 CPU 峰值
  • ISP 上的临时网络延迟
  • 端口 3000 意外终止(严重)
  • 相关服务器上的磁盘使用激增(严重)
  • 负载均衡器上短暂的内存峰值

CPU 峰值和内存波动被标记为非影响性事件,而网络延迟在拓扑上并未关联。

因此,剩余事件——端口 3000 终止(直接服务故障)、磁盘使用激增(与基础设施降级相关)以及 502 Bad Gateway(可见症状)——被归为单一问题。

经过进一步的因果分析,端口 3000 故障被识别为主要原因,磁盘使用激增被记为促成因素。

场景 4:追踪 Kubernetes 工作负载中的 5xx 错误

当应用程序在同时运行多个 Pod、节点和部署的 Kubernetes 环境中运行时,突然出现的错误激增可能难以诊断。事件关联通过关联组件间的相关症状来简化这一过程,以识别真正的根因。

例如,在电子商务应用程序中,如果支付网关 API 开始返回间歇性 5xx 错误(如服务器故障或网关超时错误),这表明服务器由于内部错误而无法处理请求。此时,系统分析同一时间段内受影响的节点、Pod 和部署中的事件,以定位来源。

  • 节点级信号:检测到节点内存使用量增加,并出现表明节点处于 MemoryPressure 状态的警告。
  • Pod 生命周期事件:节点上的多个 Pod 以 "已驱逐:节点资源不足:内存" 为列出原因而终止。
  • 容器级指标:多个容器出现 OOMKilled 终止,表明它们超出了内存限制。
  • 工作负载行为:随着 Pod 变为不可用,部署的可用副本数量降至低于其期望状态。
  • 健康检查与自动扩展:就绪探针在驱逐前失败,而 HPA(水平 Pod 自动扩展器)扩展部署,进一步增加了已承压节点上的内存消耗。

无关事件(如其他命名空间中不相关的节点 CPU 峰值或 Pod 重启)被过滤掉。智能关联将同一节点和命名空间内的所有相关信号分组,揭示了清晰的因果链。

Site24x7 的"问题"功能将这些关联事件汇聚在一起,识别内存压力为 API 故障的可能根因。

相关文章

本文档对您有帮助吗?

您愿意帮助我们改进文档吗?请告诉我们哪些方面可以做得更好。


很抱歉本文档未能让您满意。我们希望了解可以从哪些方面改进您的体验。


感谢您抽出时间分享反馈。我们将利用您的反馈来改进在线帮助资源。

短链接已复制!