使用事件关联进行故障排除

事件关联将来自多个模块（如应用程序、数据库、服务器和网络组件）的相关事件连接起来，形成事故的统一视图。通过关联来自不同来源的症状，帮助定位根因并加快解决速度。

Site24x7 将相关事件关联起来并列出可能的根因，帮助用户验证原因、深入查看详情、分配或自动化修复操作、传达状态更新、追踪重复出现的模式，以及记录发现结果供日后参考。

以下使用场景说明了事件关联如何将相关告警归组为"问题"，以实现高效的根因分析和简化的事故故障排除。

当应用程序性能下降时，精确定位原因可能颇具挑战。例如，设想应用程序的健康状态突然下降的情况。事件关联配合因果分析，将相关事件串联起来以揭示根因。

在此场景中：

通过将这些问题连接到单一因果路径，平台支持对失败和成功的事务追踪进行比较，揭示执行流程中的偏差、组件延迟和错误点。

这种有针对性的洞察可帮助您更快解决问题，最大限度减少宕机时间，并确保稳定的服务交付。

在拥有众多交换机、防火墙和路由器等设备的网络中，同时发生的事件很快会令人应接不暇。事件关联通过关联相关事件并过滤噪音来简化这种复杂性，从而揭示真正的原因。

考虑交换机响应时间突然飙升的情况。系统分析来自该交换机路径上（通过二层拓扑图）所有网络设备在同一时间发生的事件：

无关事件（如不相关的 CPU 峰值）被过滤掉。通过将 NetFlow 流量激增与 NCM 防火墙配置变更相关联，创建了一个关联问题，并将其列为交换机响应时间下降的可能根因。

在Web 应用程序中，面向用户的问题（如错误或响应缓慢）可能源于多种底层原因。事件关联帮助将症状与相关的基础设施和服务事件联系起来，以快速定位根因。

当用户在 Web 应用程序中收到 502 Bad Gateway 错误时，可能存在多个底层原因。

在此场景中，Site24x7 分析并发事件：

CPU 峰值和内存波动被标记为非影响性事件，而网络延迟在拓扑上并未关联。

因此，剩余事件——端口 3000 终止（直接服务故障）、磁盘使用激增（与基础设施降级相关）以及 502 Bad Gateway（可见症状）——被归为单一问题。

经过进一步的因果分析，端口 3000 故障被识别为主要原因，磁盘使用激增被记为促成因素。

当应用程序在同时运行多个 Pod、节点和部署的 Kubernetes 环境中运行时，突然出现的错误激增可能难以诊断。事件关联通过关联组件间的相关症状来简化这一过程，以识别真正的根因。

例如，在电子商务应用程序中，如果支付网关 API 开始返回间歇性 5xx 错误（如服务器故障或网关超时错误），这表明服务器由于内部错误而无法处理请求。此时，系统分析同一时间段内受影响的节点、Pod 和部署中的事件，以定位来源。

无关事件（如其他命名空间中不相关的节点 CPU 峰值或 Pod 重启）被过滤掉。智能关联将同一节点和命名空间内的所有相关信号分组，揭示了清晰的因果链。

Site24x7 的"问题"功能将这些关联事件汇聚在一起，识别内存压力为 API 故障的可能根因。

本页内容

使用场景