帮助手册

服务器监视器的阈值和可用性

将服务器监视器成功添加到 Site24x7 账户后,您可以添加阈值和可用性配置文件,帮助告警引擎判断特定资源是否需要声明为严重或宕机状态。配置宕机规则以减少误报告警。

在设置阈值配置文件时,您还可以将自动化映射到所需属性。一旦阈值被违反,将执行相应的修复自动化,无需人工干预即可解决问题。您最多可以为每个服务器监视器映射"n"个自动化,每个属性最多可映射五个修复自动化

添加阈值和可用性配置文件

  1. 登录 Site24x7。
  2. 转至管理 > 配置文件 > 阈值和可用性 >添加阈值配置文件。 您也可以通过以下路径导航:服务器 > 服务器监视器 > 服务器 > 点击服务器监视器 > 将鼠标悬停在显示名称旁的汉堡图标上 > 编辑 > 配置文件 > 铅笔图标 (阈值和可用性旁)。
  3. 填写以下详细信息:
    • 监视器类型:从下拉列表中选择服务器监视器
    • 显示名称:提供用于识别的标签。
  4. 阈值类型您可以选择静态阈值或基于 AI 的阈值。 参见以下部分了解可设置阈值的完整指标列表
    • 静态阈值:从下拉菜单中选择需要配置阈值的指标。输入特定单位的值,并为每个指标设置阈值条件(<、<=、=、> 或 >=)和监视器状态(将接收通知的状态)。违反这些阈值条件时,您将收到告警。 
    • 基于 AI 的阈值: 基于 AI 的阈值将使用异常检测追踪异常峰值,并提供将相应更新的动态阈值。如果选择基于 AI 的阈值,请选择关联的异常严重性和相应状态。
  5. 高级阈值设置(策略):
    轮询次数是验证阈值违规的默认策略。您可以通过对指定阈值策略应用多个条件(>、<、=、>=、<=)来验证阈值违规。当应用于以下任何阈值策略的条件成立时,监视器状态将变为异常或严重:
    • 在轮询次数期间验证阈值条件(轮询数量): 当应用于阈值值的条件在指定的"轮询次数"内持续成立时,监视器状态变为异常或严重。
    • 轮询次数期间的平均值(轮询数量):当配置的轮询数量属性值的平均值持续满足应用于阈值的条件时,监视器状态变为异常或严重。
    • 在持续时间(分钟)内验证条件:当配置的持续时间内所有轮询均持续验证应用于阈值的指定条件时,监视器状态变为异常或严重。
    • 持续时间(分钟)内的平均值: 当配置的持续时间属性值的平均值持续满足应用于阈值的条件时,监视器状态变为异常或严重。

    默认情况下,不会应用多轮询检查策略。在无法应用任何策略的情况下,阈值违规仅对单次轮询进行验证。
    注意

    为确保应用于策略"策略 3:持续时间或策略 4:持续时间内的平均值"的条件能够按预期进行阈值违规检测,您必须确保指定的持续时间至少是该监视器应用检查频率的两倍。

  6. 点击 保存。为服务器监视器创建的阈值和可用性配置文件将自动列在阈值和可用性页面中,与其他已创建的配置文件一起显示。

支持的指标列表

  • 常规阈值:
    • 进程/服务宕机时通知:启用切换按钮,以便在进程/服务宕机时收到通知。您可以选择以异常、宕机或严重告警方式收到通知。自动化也可以映射到此属性。
    • 资源检查失败时告警:启用切换按钮,在资源检查失败时触发告警(异常/宕机/严重)。
    • 数据未收集时告警:通过在服务器监视器设置页面设置时间阈值,在服务器和应用程序的性能数据未被收集时,以宕机、异常或严重状态收到通知。
    • 磁盘分区宕机时通知:如果您希望在服务器中移除分区时收到(宕机)告警,请切换为"是"。
    • 网络适配器宕机: 启用切换按钮,以便在网络适配器宕机时触发异常告警。 
    • CPU 使用率阈值:当 CPU 使用率超过配置的阈值时,以异常或严重状态收到通知。 
    • CPU 使用率 %:当 CPU 使用率百分比超过配置的阈值时,以异常或严重状态收到通知。
    • 按核心划分的 CPU 使用率阈值: 当按核心计算的 CPU 使用率阈值超过配置的阈值时,以异常或严重状态收到通知。 
    • 内存使用率阈值: 当内存使用率超过配置的阈值时,以异常或严重状态收到通知。 
    • 磁盘使用率阈值: 当磁盘使用率超过配置的阈值时,以异常或严重状态收到通知。 
    • 分区磁盘使用率阈值: 当分区磁盘使用率超过配置的阈值时,以异常或严重状态收到通知。可以按字节、KB、MB、GB、TB 和百分比进行配置。
    • 进程 CPU 使用率阈值: 当受监控进程的 CPU 使用率超过配置的阈值时,以异常或严重状态收到通知。 
    • 进程内存使用率阈值:当受监控进程的内存使用率超过配置的阈值时,以异常或严重状态收到通知。
    • 进程线程数阈值: 当受监控进程的线程阈值数量超过配置的数量时,以异常或严重状态收到通知。 
    • 进程句柄数阈值: 当受监控进程的句柄阈值数量超过配置的数量时,以异常或严重状态收到通知。 
    • 网络带宽超出:当带宽使用率超过配置的值时收到通知。
    • 网络错误数据包阈值: 当网络错误数据包超过配置的阈值时,以异常或严重状态收到通知。
    • 交换内存使用率阈值:当交换内存使用量超过配置的值时收到通知。
    • 磁盘读取:当从磁盘读取的数据字节数超过配置的值时,以异常或严重状态收到通知。
    • 磁盘写入: 当写入磁盘的数据字节数超过配置的值时,以异常或严重状态收到通知。
    • 磁盘 I/O:当总读/写或输入/输出操作次数超过配置的值时,以异常或严重状态收到通知。
    • 磁盘空闲百分比: 当磁盘处于空闲状态的时间百分比超过配置的值时,以异常或严重状态收到通知。
    • 磁盘繁忙百分比: 当磁盘处于繁忙状态的时间百分比超过配置的值时,以异常或严重状态收到通知。
    • 服务器正常运行时间:当服务器的正常运行时间超过配置的值时,以异常或严重状态收到通知。 可以按毫秒、秒、分钟、小时和天进行配置。
    • IP 地址:这是一个字符串属性。当给定 IP 地址与配置的值匹配/不匹配时,以异常或严重状态收到通知。对于包含不包含条件,可以提供多个以逗号分隔的地址。对于变更时条件,无法配置值,此外您可以选择发送告警,仅发送告警而不更改监视器状态。
    • RAM 大小: 这是一个字符串属性。 当 RAM 大小与配置的值匹配/不匹配时,以异常或严重状态收到通知。 
    • 系统空闲百分比:当服务器处于空闲状态的时间百分比超过配置的值时,以异常或严重状态收到通知。
    • 运行进程数阈值: 当服务器上运行的进程总数超过配置的阈值时,以异常或严重状态收到通知。
    • 平均磁盘队列长度:当平均磁盘队列长度超过配置的阈值时,以异常或严重状态收到通知。
  • Windows 特定阈值:(从版本 15.3.1 开始支持)
    • 服务总数:当服务器上运行的服务总数超过配置的阈值时,以异常或严重状态收到通知。
    • 处理器队列长度超过:当等待 CPU 资源的线程数超过配置的阈值时,以异常或严重状态收到通知。
  • Linux 特定阈值:(从版本 14.7.0 开始支持)
    • 系统负载(1 分钟平均)阈值: 当系统负载 1 分钟平均值超过配置的值时,以异常或严重状态收到通知。
    • 系统负载(5 分钟平均)阈值:当系统负载 5 分钟平均值超过配置的值时,以异常或严重状态收到通知。
    • 系统负载(15 分钟平均)阈值: 当系统负载 15 分钟平均值超过配置的值时,以异常或严重状态收到通知。
    • 进程总数阈值:当进程总数超过配置的值时,以异常或严重状态收到通知。
    • 阻塞进程数阈值:当等待资源的进程数超过配置的阈值时,以异常或严重状态收到通知。
    • CPU 用户空间阈值:当用户进程占用的 CPU 百分比超过配置的值时,以异常或严重状态收到通知。
    • CPU 硬件中断阈值:当处理硬件中断所占的 CPU 百分比超过配置的值时,以异常或严重状态收到通知。
    • CPU 空闲阈值: 当 CPU 处于空闲状态的百分比超过配置的值时,以异常或严重状态收到通知。
    • CPU 软件中断阈值: 当处理软件中断所占的 CPU 百分比超过配置的值时,以异常或严重状态收到通知。
    • CPU Nice 阈值: 当处理低优先级进程所占的 CPU 百分比超过配置的值时,以异常或严重状态收到通知。
    • CPU 等待 阈值: 当等待 I/O 操作所占的 CPU 百分比超过配置的值时,以异常或严重状态收到通知。
    • CPU 被盗 阈值: 当 Hypervisor 主机为其他虚拟机使用而窃取的时间超过配置的值时,以异常或严重状态收到通知。
    • CPU 系统阈值: 当系统进程占用的 CPU 百分比超过配置的值时,以异常或严重状态收到通知。 

编辑阈值和可用性配置文件

  1. 点击您想要编辑的配置文件。
  2. 添加阈值配置文件窗口中编辑需要更改的参数。
  3. 点击保存

删除阈值和可用性配置文件

  1. 阈值和可用性页面中点击需要删除的配置文件。
  2. 将导航至编辑阈值配置文件窗口。
  3. 点击删除

本文档对您有帮助吗?

您愿意帮助我们改进文档吗?请告诉我们哪些方面可以做得更好。


很抱歉本文档未能让您满意。我们希望了解可以从哪些方面改进您的体验。


感谢您抽出时间分享反馈。我们将利用您的反馈来改进在线帮助资源。

短链接已复制!