帮助手册

人工智能驱动的异常报表

Site24x7 的 AI 驱动 Zia 框架使用鲁棒主成分分析 (RPCA) 和矩阵草图算法,检测监视器关键性能属性(即响应时间、CPU 使用率、内存利用率等)中的任何异常峰值或偏差;并通过 Web 客户端中详细的表格或图形仪表板以及告警邮件,将此类峰值通知给您。所有 KPI 均与季节性基准值进行比较。异常报表有助于您优化资源性能,保护基础设施免受任何不可预见的问题影响。您可以通过生成 CSV、PDF 或发送邮件的方式与团队共享异常情况。 

概述

对受监控指标进行异常检测的核心思路是识别给定序列中任何异常峰值或偏差。需要启用异常检测的任何监控度量都被视为时间序列,并在统一时间间隔内随时间进行轮询。仅依赖某些静态数学不等式,长期来看无法给出上下文一致的结果。人工智能 (AI) 可以通过旨在在异常发生时立即检测的方法来解决这一问题。

基于 AI 的方法具有以下几种特性:

  • 趋势平滑:趋势处理捕捉整体模式方向(上升或下降)
  • 季节性处理:即在每个时间周期内大致周期性重现的模式结构
  • 鲁棒性:使其对无关紧要的性能峰值免疫。

使用异常引擎预测趋势

异常引擎的周期包括多个阶段,从处理来自数据采集器的传入数据(与 AI 训练数据进行对比),到生成已确认的异常,再到发出异常通知。异常引擎具有用于异常检测的定量和定性对比模型。异常引擎的预测涉及两个阶段:

  1. 异常事件生成
  2. 域评分以确定异常严重程度

异常事件生成

此阶段的主要目的是执行重量级处理并生成事件。异常检测引擎每 15 分钟从 Site24x7 数据采集代理收集一次指标。对于单变量异常检测,这些数据将与机器学习模型的训练数据进行对比,训练数据为过去两周中对应日期的每小时第 95 百分位值。例如,如果发送的是周五的数据进行异常检测,则以过去两周中每个周五的值作为机器学习模型的训练数据,有助于实现数据的季节性。使用数据的第 95 百分位进行训练,是为了去除存在的极端值(第 95 百分位会去除最高的 5% 的值,这也会去除训练数据中的异常峰值)。

对于多变量异常检测,Site24x7 数据采集代理同样每 15 分钟向异常检测平台推送一次数据。使用过去两周中相关属性的每小时第 95 百分位值来训练算法。如果某种组合被检测为异常,则会确定该组合中导致异常的属性。

根据与训练数据的对比结果,生成事件并将其定义为 L1、L2 和 L3 值,其中 L3 值具有最高的异常概率。

域评分以确定异常严重程度

此阶段通过同时考虑依赖监视器中发现的异常,为异常生成添加了定性模型。事件汇总并给出评分,根据该评分确定异常的严重程度。当异常发生时触发异常评分任务,异常引擎会检查过去 30 分钟内是否有任何依赖监视器出现异常。根据导致监视器异常的属性以及这些属性偏离预期值的百分比,对各个监视器给出评分。

通常按照以下方法(按下面指定的顺序)确定最终评分:

  • 同一监视器的另一个属性被检测为异常
  • 依赖监视器被检测到异常
  • 父/子监视器出现异常
  • 在同一监视器组下分组的监视器被检测为异常
  • 具有相同标签(用户定义标签)的其他监视器出现异常
  • 具有相同服务器名称/相同完全限定域名 (FQDN) 的监视器出现异常

您可以阅读我们的 知识库文章,了解域评分和严重程度基准测试中使用的各种情形。 

最终,基于域评分、依赖关系和检测到异常的不断加剧等因素,异常的严重程度分为三级:

  • 已确认的异常 已确认的异常:表示持续性的负面趋势。当已确认的异常在较长时间内重复出现时,这清楚地预示着即将不可避免地发生中断。因此,重复出现的已确认异常需要您给予高度关注。
  • 可能的异常 可能的异常:您必须密切关注此类趋势,因为从长远来看,它可能导致中断。
  • 信息 异常信息:这只是对用户的通知,必须非常密切地监控,以便提前缓解任何未来问题。

基于 Zia 的阈值配置文件

基于 Zia 的阈值配置文件使用异常检测来确定监视器的状态。这是一种动态阈值方法,不同于当前使用的静态阈值。在当前的静态阈值配置文件中,您需要设置硬编码阈值来确定监视器的状态。一旦发生任何问题,只有在设定的阈值被突破时,您才会收到通知。

对于基于 Zia 的阈值,您将无法设置任何硬编码阈值。取而代之的是,阈值将根据监视器的行为动态更新。因此,一旦发生任何问题,客户将立即收到通知,而不必等待静态阈值被突破。除了具有动态性之外,这还消除了设置轮询策略的需要。轮询策略对于避免间歇性峰值是必不可少的。在异常检测的情况下,通过峰值抑制来避免将间歇性峰值报告为异常,因此可以避免硬编码轮询策略。

工作原理

您可以从现有阈值配置文件表单中选择"静态配置文件"或"基于 Zia 的配置文件"。如果选择基于 Zia 的阈值配置文件,则对于已启用异常检测的属性,将显示严重程度选择选项。对于未启用异常的属性,无论选择哪种配置文件类型,都将显示静态阈值设置。不能同时选择静态配置文件和基于 Zia 的配置文件。您只能对已启用异常选项的属性获取基于 Zia 的设置。

在基于 Zia 的阈值配置文件中:

  • 每个属性将有两个严重程度选项,即"可能的"和"已确认的",代表异常严重程度。如果将"可能的"严重程度设置为"故障",则意味着"如果该属性出现可能的异常,则将监视器状态变为故障"。"已确认的"同理。但两个严重程度不能具有相同的状态变更。
  • 每个属性还具有一个"自动化"选项,可以将其映射到在出现可能或已确认异常时需要执行的相应操作。

解读异常仪表板

异常仪表板让您可以提前轻松解读 IT 基础设施中的任何负面趋势。您可以根据监视器或监视器组的选择来查找和筛选异常。

按照以下步骤查看和解读异常仪表板:

  1. 登录 Site24x7 账户。
  2. 前往首页 > 异常仪表板。
  3. 使用时间段选择器选择时间跨度,范围从过去 1 小时、6 小时、12 小时、24 小时到过去一年。您可以在搜索栏中按监视器/组名称查找和排序异常。                
  4. 此外,您还可以根据严重程度级别(如已确认可能的信息)对异常进行分类。 

生成仪表板后,您可以点击右上角显示的分享为按钮,通过邮件分享报表,或生成 CSV 或 PDF 与团队成员共享。邮件只能发送给已同意接收 Site24x7 邮件的经过验证的用户。分享给选项允许您将数据直接发送到第三方工具,该选项仅在为所选工具启用了第三方集成时才可用。

  • 第三方工具:选择要将报表发送到的第三方工具。
  • 消息标题:系统提供默认的消息标题。根据需要修改,以更改标题在消息通知中的显示方式。
Note
  • 此选项适用于 SlackTelegramDiscord 等集成工具。
  • 要验证数据是否已成功发送到第三方工具,请查看日志页面。该页面显示每个请求的状态,帮助您确认数据传输是否成功或是否发生了错误。
  • 您可以创建专用的集成通道来发送报表,而不是使用为告警配置的同一通道。使用专用通道有助于保持清晰,确保报表不会被遗忽或与告警通知混淆。 

仪表板提供分屏视图,所有监视器和监视器组可在仪表板左侧看到。在仪表板屏幕的右侧,您可以查看所请求时间段的异常摘要图表以及每个检测到的异常的具体原因(列于异常历史下方)。您可以在搜索字段中按监视器/组名称查找异常,或按严重程度级别进行筛选。异常摘要图表以堆积条形图显示所选时间段内每天监视器/监视器组的异常数量。各条异常将在"异常历史"部分以及每条异常的详细说明中列出。所有列出的异常将在异常消息旁显示其相关的严重程度标志。通过"异常描述"可深入了解异常趋势的详情。要进一步了解性能问题的根因,请点击异常描述旁提供的超链接。

Note

异常摘要图表显示所选时间段的数据。但是,如果异常数量超过 100,则图表中仅显示有异常数据的日期,其余日期的数据将被忽略。

图表中每个独立监视器显示的图例也可用作唯一筛选器。您可以使用它来在条形图中移除或重新插入特定监视器。

点击特定异常消息的了解根因链接后,会弹出一个模态窗口,您可以看到一个包含指标值的折线图。将鼠标悬停在折线图上,可查看特定日期和时间的实际指标值。默认指标值因监视器而异。每个监视器将有一个或多个默认启用异常检测的属性。此外,您还可以使用折线图上方的下拉菜单,在相同时间范围内查看所选监视器的其他性能属性。

 

 

异常检测:已启用的监视器及对应性能属性列表 

对于大多数监视器,默认情况下会为某些指标启用异常检测。以下列出所有此类监视器及其默认启用异常检测的各自性能属性。

监视器类型 性能属性
网站  响应时间 
DNS 服务器  响应时间 
FTP 传输  响应时间 
网页速度(浏览器) 响应时间 
Ping  响应时间 
FTP 服务器  响应时间 
端口(自定义协议)  响应时间 
POP 服务器  响应时间 
SMTP 服务器  响应时间 
Web 事务(浏览器)  响应时间 
Web 事务  响应时间
邮件投递监视器 响应时间
REST API 监视器 响应时间
SOAP Web 服务监视器 响应时间
Microsoft Hyper-V 服务器

健康严重 VM 数,
逻辑处理器,
虚拟处理器,
VM Bus 接收中断数,
VM Bus 限流事件数,
VM Bus 每秒接收中断数,
VM Bus 每秒发送中断数,
逻辑处理器来宾运行时间,
逻辑处理器虚拟机监控程序运行时间,
逻辑处理器总运行时间,
根虚拟处理器页面错误拦截,
虚拟处理器已模拟指令数,
虚拟处理器 MSR 访问数,
虚拟交换机每秒字节数,
虚拟交换机每秒数据包数,
虚拟交换机每秒发送字节数,
内存需求 

Microsoft 故障转移群集 

待处理消息数,
资源主机子系统进程重启次数,
资源主机子系统进程,
已用空间,
接收字节数,
发送字节数,
接收消息数,
发送消息数,
脱机资源数,
普通消息队列长度,
紧急消息队列长度,
重新连接次数,
已用 (MB),
已用空间,
资源故障数,
资源故障 - 访问冲突,
资源故障 - 死锁

Microsoft Office 365 

已创建组,
已删除组,
非活跃邮箱,
超过警告大小,
使用率低于 25%,
入站,
出站,
活跃 Lync 用户,
Web 会议,
电话会议,
IM 会议,
AV 会议,
应用共享会议,
音频会话,
文件传输会话,
IM 会话,
视频会话,
应用共享会话,
唯一 SharePoint 用户数,
已分配许可证,
已获取许可证,
活跃部署,
非活跃部署,
已用空间 

插件

所有属性

APM Insight - 应用程序

响应时间,
错误计数,
严重错误计数,

各组件的响应时间、请求计数和失败计数

各异常的异常计数

APM Insight 实例

响应时间,
错误计数,
严重错误计数,

各组件的响应时间、请求计数和失败计数

各异常的异常计数

RUM 监视器

应用吞吐量,
位置吞吐量,
浏览器吞吐量,
浏览器前端时间,
浏览器错误百分比,
位置网络时间,
应用后端时间

经典负载均衡器

延迟,
请求数

应用负载均衡器

延迟,
请求数

网络负载均衡器

处理字节数,
已消耗 LCU 总和

Simple Notification Service

已发布消息数,
发布大小,
SMS 成功率

Simple Storage Service (S3)

存储桶大小,
对象数量,
全部请求数

AWS Lambda

调用次数(总和),
错误数(总和),
持续时间(总和),
限流数(总和)

Elastic MapReduce

失败作业数,
失败应用数,
S3 读取字节数,
S3 写入字节数,
HDFS 读取字节数,
HDFS 写入字节数,
失败步骤数

Web 应用防火墙 (WAF)

允许的请求数,
被阻止的请求数,
计数请求数,
通过的请求数

Neptune 实例

CPU 利用率,
卷使用字节数,
可用内存

Neptune 集群

CPU 利用率,
卷使用字节数,
可用内存

Lightsail 实例

CPU 利用率,
网络入流量,
网络出流量

Amazon GuardDuty

每天发现数,
高危

监视器类型 性能属性
EC2 服务器实例监视器

CPU 使用率,
网络入流量(接收字节数),
网络出流量(发送字节数)

RDS 实例监视器

CPU 使用率,
可用存储空间,
数据库连接数

Microsoft IIS 服务器 

排队请求数,
应用重启次数,
接收字节数,
发送字节数,
网络统计,
缓存总条目数,
缓存 API 命中率,
缓存 API 周转率,
缓存占用机器内存限制百分比,
SQL Server 会话连接总数,
处理器时间 (%),
每秒 IO 数据操作数,
线程计数,
私有/虚拟内存 (MB),
物理线程数 

Microsoft Exchange 服务器

数据库缓存大小,
由缓存满足的页面请求数,
每秒数据库缓存页面错误停顿数,
I/O 数据库读取平均延迟,
I/O 数据库写入平均延迟,
每秒 IO 日志写入数,
RPC 响应时间,
RPC 操作数,
RPC 慢数据包数,
慢速 QP 线程数,
活跃用户数,
RPC 请求数,
活跃客户端数,
每秒 Hub RPC 请求发送数

Microsoft SQL 服务器 

连接数,
登录数,
批量请求数,
SQL 编译数,
复制合并冲突数,
目标服务器内存,
服务器总内存,
SQL 缓存内存,
优化器内存,
授予的工作区内存,
等待内存授予数,
检查点页面数,
惰性写入数,
页面读取数,
页面写入数,
页面拆分数,
全扫描数,
探测扫描数,
范围扫描数,
错误数,
计划缓存命中率,
缓存页面数,
缓存对象数,
排队作业数,
失败作业数,
锁定请求数,
锁定超时数,
死锁数 

服务器监视器 

CPU 使用率,
内存使用率,
已用物理内存,
已用交换内存,
内存页面调入,
内存页面错误,
15 分钟平均值,
磁盘读取,
磁盘写入,
上下文切换,
处理器中断

Microsoft SharePoint 服务器

活跃请求数,
活跃会话数,
平均请求处理时间,
每秒获取数据请求数,
每秒插入请求数,
每秒更新请求数,
每秒删除请求数,
每秒失败插入请求数,
平均数据获取持续时间,
平均插入持续时间,
平均更新持续时间,
表单会话平均时间,
事务完成率,
请求处理时间,
每秒 VISIO 请求数,
每秒错误数,
队列中的请求数,
被拒绝的请求数,
每秒 ASP 请求数,
当前会话数,
每秒已启动事务数,
待处理事务数,
内容数据库中的网站集警告数,
失败查询数,
成功查询数

网络设备

设备属性
响应时间,
CPU 利用率,
内存利用率

接口属性
入流量,
出流量,
错误率,
丢弃率

NetFlow 设备

设备属性
设备流量,
流计数

接口属性
接收流量,
发送流量

无代理服务器

设备属性
响应时间,
CPU 利用率百分比,
内存利用率百分比,
磁盘利用率百分比

接口属性
CPU 进程,
内存进程,
实例数,
入流量,
出流量,
错误率,
丢弃率

Meraki 安全设备

设备属性
响应时间,
丢包率

本文档对您有帮助吗?

您愿意帮助我们改进文档吗?请告诉我们哪些方面可以做得更好。


很抱歉本文档未能让您满意。我们希望了解可以从哪些方面改进您的体验。


感谢您抽出时间分享反馈。我们将利用您的反馈来改进在线帮助资源。

短链接已复制!