人工智能驱动的异常报表
Site24x7 的 AI 驱动 Zia 框架使用鲁棒主成分分析 (RPCA) 和矩阵草图算法,检测监视器关键性能属性(即响应时间、CPU 使用率、内存利用率等)中的任何异常峰值或偏差;并通过 Web 客户端中详细的表格或图形仪表板以及告警邮件,将此类峰值通知给您。所有 KPI 均与季节性基准值进行比较。异常报表有助于您优化资源性能,保护基础设施免受任何不可预见的问题影响。您可以通过生成 CSV、PDF 或发送邮件的方式与团队共享异常情况。
概述
对受监控指标进行异常检测的核心思路是识别给定序列中任何异常峰值或偏差。需要启用异常检测的任何监控度量都被视为时间序列,并在统一时间间隔内随时间进行轮询。仅依赖某些静态数学不等式,长期来看无法给出上下文一致的结果。人工智能 (AI) 可以通过旨在在异常发生时立即检测的方法来解决这一问题。
基于 AI 的方法具有以下几种特性:
- 趋势平滑:趋势处理捕捉整体模式方向(上升或下降)
- 季节性处理:即在每个时间周期内大致周期性重现的模式结构
- 鲁棒性:使其对无关紧要的性能峰值免疫。
使用异常引擎预测趋势
异常引擎的周期包括多个阶段,从处理来自数据采集器的传入数据(与 AI 训练数据进行对比),到生成已确认的异常,再到发出异常通知。异常引擎具有用于异常检测的定量和定性对比模型。异常引擎的预测涉及两个阶段:
异常事件生成
此阶段的主要目的是执行重量级处理并生成事件。异常检测引擎每 15 分钟从 Site24x7 数据采集代理收集一次指标。对于单变量异常检测,这些数据将与机器学习模型的训练数据进行对比,训练数据为过去两周中对应日期的每小时第 95 百分位值。例如,如果发送的是周五的数据进行异常检测,则以过去两周中每个周五的值作为机器学习模型的训练数据,有助于实现数据的季节性。使用数据的第 95 百分位进行训练,是为了去除存在的极端值(第 95 百分位会去除最高的 5% 的值,这也会去除训练数据中的异常峰值)。
对于多变量异常检测,Site24x7 数据采集代理同样每 15 分钟向异常检测平台推送一次数据。使用过去两周中相关属性的每小时第 95 百分位值来训练算法。如果某种组合被检测为异常,则会确定该组合中导致异常的属性。
根据与训练数据的对比结果,生成事件并将其定义为 L1、L2 和 L3 值,其中 L3 值具有最高的异常概率。
域评分以确定异常严重程度
此阶段通过同时考虑依赖监视器中发现的异常,为异常生成添加了定性模型。事件汇总并给出评分,根据该评分确定异常的严重程度。当异常发生时触发异常评分任务,异常引擎会检查过去 30 分钟内是否有任何依赖监视器出现异常。根据导致监视器异常的属性以及这些属性偏离预期值的百分比,对各个监视器给出评分。
通常按照以下方法(按下面指定的顺序)确定最终评分:
- 同一监视器的另一个属性被检测为异常
- 依赖监视器被检测到异常
- 父/子监视器出现异常
- 在同一监视器组下分组的监视器被检测为异常
- 具有相同标签(用户定义标签)的其他监视器出现异常
- 具有相同服务器名称/相同完全限定域名 (FQDN) 的监视器出现异常
您可以阅读我们的 知识库文章,了解域评分和严重程度基准测试中使用的各种情形。
最终,基于域评分、依赖关系和检测到异常的不断加剧等因素,异常的严重程度分为三级:
- 已确认的异常
:表示持续性的负面趋势。当已确认的异常在较长时间内重复出现时,这清楚地预示着即将不可避免地发生中断。因此,重复出现的已确认异常需要您给予高度关注。 - 可能的异常
:您必须密切关注此类趋势,因为从长远来看,它可能导致中断。 - 信息
:这只是对用户的通知,必须非常密切地监控,以便提前缓解任何未来问题。
基于 Zia 的阈值配置文件
基于 Zia 的阈值配置文件使用异常检测来确定监视器的状态。这是一种动态阈值方法,不同于当前使用的静态阈值。在当前的静态阈值配置文件中,您需要设置硬编码阈值来确定监视器的状态。一旦发生任何问题,只有在设定的阈值被突破时,您才会收到通知。
对于基于 Zia 的阈值,您将无法设置任何硬编码阈值。取而代之的是,阈值将根据监视器的行为动态更新。因此,一旦发生任何问题,客户将立即收到通知,而不必等待静态阈值被突破。除了具有动态性之外,这还消除了设置轮询策略的需要。轮询策略对于避免间歇性峰值是必不可少的。在异常检测的情况下,通过峰值抑制来避免将间歇性峰值报告为异常,因此可以避免硬编码轮询策略。
工作原理
您可以从现有阈值配置文件表单中选择"静态配置文件"或"基于 Zia 的配置文件"。如果选择基于 Zia 的阈值配置文件,则对于已启用异常检测的属性,将显示严重程度选择选项。对于未启用异常的属性,无论选择哪种配置文件类型,都将显示静态阈值设置。不能同时选择静态配置文件和基于 Zia 的配置文件。您只能对已启用异常选项的属性获取基于 Zia 的设置。
在基于 Zia 的阈值配置文件中:
- 每个属性将有两个严重程度选项,即"可能的"和"已确认的",代表异常严重程度。如果将"可能的"严重程度设置为"故障",则意味着"如果该属性出现可能的异常,则将监视器状态变为故障"。"已确认的"同理。但两个严重程度不能具有相同的状态变更。
- 每个属性还具有一个"自动化"选项,可以将其映射到在出现可能或已确认异常时需要执行的相应操作。
解读异常仪表板
异常仪表板让您可以提前轻松解读 IT 基础设施中的任何负面趋势。您可以根据监视器或监视器组的选择来查找和筛选异常。
按照以下步骤查看和解读异常仪表板:
- 登录 Site24x7 账户。
- 前往首页 > 异常仪表板。

- 使用时间段选择器选择时间跨度,范围从过去 1 小时、6 小时、12 小时、24 小时到过去一年。您可以在搜索栏中按监视器/组名称查找和排序异常。
- 此外,您还可以根据严重程度级别(如已确认、可能的和信息)对异常进行分类。


生成仪表板后,您可以点击右上角显示的分享为按钮,通过邮件分享报表,或生成 CSV 或 PDF 与团队成员共享。邮件只能发送给已同意接收 Site24x7 邮件的经过验证的用户。分享给选项允许您将数据直接发送到第三方工具,该选项仅在为所选工具启用了第三方集成时才可用。
- 第三方工具:选择要将报表发送到的第三方工具。
- 消息标题:系统提供默认的消息标题。根据需要修改,以更改标题在消息通知中的显示方式。
仪表板提供分屏视图,所有监视器和监视器组可在仪表板左侧看到。在仪表板屏幕的右侧,您可以查看所请求时间段的异常摘要图表以及每个检测到的异常的具体原因(列于异常历史下方)。您可以在搜索字段中按监视器/组名称查找异常,或按严重程度级别进行筛选。异常摘要图表以堆积条形图显示所选时间段内每天监视器/监视器组的异常数量。各条异常将在"异常历史"部分以及每条异常的详细说明中列出。所有列出的异常将在异常消息旁显示其相关的严重程度标志。通过"异常描述"可深入了解异常趋势的详情。要进一步了解性能问题的根因,请点击异常描述旁提供的超链接。
异常摘要图表显示所选时间段的数据。但是,如果异常数量超过 100,则图表中仅显示有异常数据的日期,其余日期的数据将被忽略。
图表中每个独立监视器显示的图例也可用作唯一筛选器。您可以使用它来在条形图中移除或重新插入特定监视器。

点击特定异常消息的了解根因链接后,会弹出一个模态窗口,您可以看到一个包含指标值的折线图。将鼠标悬停在折线图上,可查看特定日期和时间的实际指标值。默认指标值因监视器而异。每个监视器将有一个或多个默认启用异常检测的属性。此外,您还可以使用折线图上方的下拉菜单,在相同时间范围内查看所选监视器的其他性能属性。

异常检测:已启用的监视器及对应性能属性列表
对于大多数监视器,默认情况下会为某些指标启用异常检测。以下列出所有此类监视器及其默认启用异常检测的各自性能属性。
| 监视器类型 | 性能属性 |
| 网站 | 响应时间 |
| DNS 服务器 | 响应时间 |
| FTP 传输 | 响应时间 |
| 网页速度(浏览器) | 响应时间 |
| Ping | 响应时间 |
| FTP 服务器 | 响应时间 |
| 端口(自定义协议) | 响应时间 |
| POP 服务器 | 响应时间 |
| SMTP 服务器 | 响应时间 |
| Web 事务(浏览器) | 响应时间 |
| Web 事务 | 响应时间 |
| 邮件投递监视器 | 响应时间 |
| REST API 监视器 | 响应时间 |
| SOAP Web 服务监视器 | 响应时间 |
| Microsoft Hyper-V 服务器 |
健康严重 VM 数, |
| Microsoft 故障转移群集 |
待处理消息数, |
| Microsoft Office 365 |
已创建组, |
| 插件 |
所有属性 |
| APM Insight - 应用程序 |
响应时间, 各组件的响应时间、请求计数和失败计数 各异常的异常计数 |
| APM Insight 实例 |
响应时间, 各组件的响应时间、请求计数和失败计数 各异常的异常计数 |
| RUM 监视器 |
应用吞吐量, |
| 经典负载均衡器 |
延迟, |
| 应用负载均衡器 |
延迟, |
| 网络负载均衡器 |
处理字节数, |
| Simple Notification Service |
已发布消息数, |
| Simple Storage Service (S3) |
存储桶大小, |
| AWS Lambda |
调用次数(总和), |
| Elastic MapReduce |
失败作业数, |
| Web 应用防火墙 (WAF) |
允许的请求数, |
| Neptune 实例 |
CPU 利用率, |
| Neptune 集群 |
CPU 利用率, |
| Lightsail 实例 |
CPU 利用率, |
| Amazon GuardDuty |
每天发现数, |
| 监视器类型 | 性能属性 |
| EC2 服务器实例监视器 |
CPU 使用率, |
| RDS 实例监视器 |
CPU 使用率, |
| Microsoft IIS 服务器 |
排队请求数, |
| Microsoft Exchange 服务器 |
数据库缓存大小, |
| Microsoft SQL 服务器 |
连接数, |
| 服务器监视器 |
CPU 使用率, |
| Microsoft SharePoint 服务器 |
活跃请求数, |
| 网络设备 |
设备属性: |
| NetFlow 设备 |
设备属性: |
| 无代理服务器 |
设备属性: |
| Meraki 安全设备 |
设备属性: |
