根本原因分析报表(RCA)
每次检测到宕机时,系统将触发并生成根本原因分析(RCA)报表,并根据告警联系人和通知方式发送给用户。RCA 报表提供宕机的实际原因,并附有路由追踪图以诊断连接问题。
例如,某台服务器因进程占用过高而崩溃。Site24x7 会将该监视器标记为宕机,并向用户发送 RCA 报表。服务器监控 agent 将收集服务器崩溃前按 CPU、内存和其他事件排名的顶级进程,并在 RCA 报表中呈现。这有助于更快速地进行故障排除,并防止未来出现类似的性能下降问题。
以下分别介绍 Windows 和 Linux 服务器 RCA 报表的各组成部分:
Windows 服务器的 RCA:
检测到 Windows 服务器宕机时,RCA 报表中生成的各组成部分如下:
- 监视器详情:列出基本监视器信息,包括监视器名称、类型、IP 地址、主机名、宕机持续时间等。

- CPU 占用最高的进程(含最近 5 分钟平均值):以图形方式展示 CPU 占用量最高的进程。另一个图表显示最近 5 分钟内内存占用量最高的进程。
- 内存占用最高的进程(含最近 5 分钟平均值):以图形方式展示内存占用量最高的进程。另一个图表显示最近 5 分钟内内存占用量最高的进程。

- 磁盘详情:列出各磁盘的总容量和可用空闲空间。
- 硬盘状态:显示硬盘的容量、当前状态以及硬盘上发生的任何错误描述。

- 路由追踪:要在 RCA 中包含路由追踪分析,用户需为 plus.site24x7.com 域名的路由追踪开放防火墙访问权限。启用此功能后,用户可深入分析连接问题的实际原因,并尽快采取纠正措施。

- 事件日志:记录事件日志的类型(警告、错误、审核失败、严重)、描述、写入时间及其来源。

- CPU 风扇状态:CPU 风扇的当前状态。
- 已登录用户:该服务器上活跃用户的数量分类。
- 过去 30 天内安装的软件:过去 30 天内在服务器上安装的软件列表。
Linux 服务器的 RCA:
检测到 Linux 服务器宕机时,RCA 报表中生成的各组成部分如下:
- 监视器详情:列出基本监视器信息,包括监视器名称、IP 地址、主机名、宕机原因、宕机持续时间等。
- CPU 占用最高的进程(含最近 5 分钟平均值):以图形方式展示 CPU 占用量最高的进程。另一个图表显示最近 5 分钟内内存占用量最高的进程。
- 内存占用最高的进程(含最近 5 分钟平均值):以图形方式展示内存占用量最高的进程。另一个图表显示最近 5 分钟内内存占用量最高的进程。

- CPU 使用率:以表格形式提供负载百分比、每秒上下文切换数、每秒中断数等数据。
- 磁盘使用率:列出各磁盘的总容量和可用空闲空间。
- 内存统计:列出内存指标,包括总量、已用、空闲、缓冲区空闲/已用、总虚拟内存空闲/已用等。
- 网络详情:提供发送/接收数据包数、网络连接状态、发送和接收流量等信息。

- 路由追踪:要在 RCA 中包含路由追踪分析,用户需为 plus.site24x7.com 域名的路由追踪开放防火墙访问权限。启用此功能后,用户可深入分析连接问题的实际原因,并尽快采取纠正措施。

- 用户会话:该服务器上活跃用户的数量分类。
- 磁盘错误:来自内核的磁盘错误,包括 I/O 错误和文件系统错误。
- 驱动程序消息:来自内核的错误消息将在此列出。
- 系统日志:列出特定系统日志的进程 ID、错误消息、格式化时间和严重级别。

咨询 Zia
使用 Zia 快速分析根本原因,获取洞察,并高效排查问题。
相关文章:
- 添加 Windows | Linux 服务器监视器
- 了解服务器监控的工作原理
- 服务器性能指标
- 服务与进程监控
- 服务器监视器阈值配置文件
- 设置配置模板
- 服务器清单仪表板
