帮助手册

根本原因分析报表(RCA)

每次检测到宕机时,系统将触发并生成根本原因分析(RCA)报表,并根据告警联系人和通知方式发送给用户。RCA 报表提供宕机的实际原因,并附有路由追踪图以诊断连接问题。

例如,某台服务器因进程占用过高而崩溃。Site24x7 会将该监视器标记为宕机,并向用户发送 RCA 报表。服务器监控 agent 将收集服务器崩溃前按 CPU、内存和其他事件排名的顶级进程,并在 RCA 报表中呈现。这有助于更快速地进行故障排除,并防止未来出现类似的性能下降问题。

以下分别介绍 Windows 和 Linux 服务器 RCA 报表的各组成部分:

Windows 服务器的 RCA:

检测到 Windows 服务器宕机时,RCA 报表中生成的各组成部分如下:

  1. 监视器详情:列出基本监视器信息,包括监视器名称、类型、IP 地址、主机名、宕机持续时间等。
     
  2. CPU 占用最高的进程(含最近 5 分钟平均值):以图形方式展示 CPU 占用量最高的进程。另一个图表显示最近 5 分钟内内存占用量最高的进程。
  3. 内存占用最高的进程(含最近 5 分钟平均值):以图形方式展示内存占用量最高的进程。另一个图表显示最近 5 分钟内内存占用量最高的进程。
     
  4. 磁盘详情:列出各磁盘的总容量和可用空闲空间。
  5. 硬盘状态:显示硬盘的容量、当前状态以及硬盘上发生的任何错误描述。
     
  6. 路由追踪:要在 RCA 中包含路由追踪分析,用户需为 plus.site24x7.com 域名的路由追踪开放防火墙访问权限。启用此功能后,用户可深入分析连接问题的实际原因,并尽快采取纠正措施。
  7. 事件日志:记录事件日志的类型(警告、错误、审核失败、严重)、描述、写入时间及其来源。
  8. CPU 风扇状态:CPU 风扇的当前状态。
  9. 已登录用户:该服务器上活跃用户的数量分类。
  10. 过去 30 天内安装的软件:过去 30 天内在服务器上安装的软件列表。

Linux 服务器的 RCA:

检测到 Linux 服务器宕机时,RCA 报表中生成的各组成部分如下:

  1. 监视器详情:列出基本监视器信息,包括监视器名称、IP 地址、主机名、宕机原因、宕机持续时间等。
  2. CPU 占用最高的进程(含最近 5 分钟平均值):以图形方式展示 CPU 占用量最高的进程。另一个图表显示最近 5 分钟内内存占用量最高的进程。
  3. 内存占用最高的进程(含最近 5 分钟平均值):以图形方式展示内存占用量最高的进程。另一个图表显示最近 5 分钟内内存占用量最高的进程。
  4. CPU 使用率:以表格形式提供负载百分比、每秒上下文切换数、每秒中断数等数据。
  5. 磁盘使用率:列出各磁盘的总容量和可用空闲空间。
  6. 内存统计:列出内存指标,包括总量、已用、空闲、缓冲区空闲/已用、总虚拟内存空闲/已用等。
  7. 网络详情:提供发送/接收数据包数、网络连接状态、发送和接收流量等信息。
  8. 路由追踪:要在 RCA 中包含路由追踪分析,用户需为 plus.site24x7.com 域名的路由追踪开放防火墙访问权限。启用此功能后,用户可深入分析连接问题的实际原因,并尽快采取纠正措施。
  9. 用户会话:该服务器上活跃用户的数量分类。
  10. 磁盘错误:来自内核的磁盘错误,包括 I/O 错误和文件系统错误。
  11. 驱动程序消息:来自内核的错误消息将在此列出。
  12. 系统日志:列出特定系统日志的进程 ID、错误消息、格式化时间和严重级别。

咨询 Zia

使用 Zia 快速分析根本原因,获取洞察,并高效排查问题。

本文档对您有帮助吗?

您愿意帮助我们改进文档吗?请告诉我们哪些方面可以做得更好。


很抱歉本文档未能让您满意。我们希望了解可以从哪些方面改进您的体验。


感谢您抽出时间分享反馈。我们将利用您的反馈来改进在线帮助资源。

短链接已复制!