帮助手册 管理 阈值和可用性 服务器监视器的阈值和可用性

服务器监视器的阈值和可用性

将服务器监视器成功添加到您的 Site24x7 帐户后,您可以添加阈值和可用性配置文件,以帮助告警引擎决定是否必须将特定资源声明为关键资源或停机。配置停机规则以减少错误告警。

在设置阈值配置文件时,您还可以 将自动化映射到所需的属性。一旦超过阈值,将执行纠正自动化,无需人工干预即可修复问题。您可以为每个服务器监视器映射“ n”个自动化,每个属性最多可以映射五个校正自动化 。

添加阈值和可用性配置文件

  1. 登录到 Site24x7。
  2. 转到管理>配置文件>阈值和可用性>添加阈值配置文件。 您还可以通过 服务器服务器监视器服务器> 单击服务器监视器 > 将鼠标悬停在显示名称旁边的三横杠图标上 > 编辑配置文件 > 阈值和可用性 旁边 的铅笔图标
  3. 指定以下详细信息:
    • 监视器类型:从下拉列表中选择服务器监视器。
    • 显示名称:提供标签以供识别。
  4. 阈值类型您可以在静态和基于 AI 的阈值之间进行选择。  有关可以设置阈值 的指标的完整列表,请参阅以下部分
    • 静态阈值:从下拉菜单中,选择需要配置阈值的所需指标。输入特定于单位的值,并为每个指标设置阈值条件(<、<=、=、> 或 >=)和监视器状态(通知为)。当违反这些阈值条件时,您会收到告警。 
    • 基于 AI 的阈值:基于 AI 的阈值将使用异常检测跟踪异常峰值  ,并将提供一个动态阈值,该阈值将相应更新。如果您选择基于 AI 的阈值,请选择相关 的异常严重性 和相应的状态。
  5. 高级阈值设置(策略):
    轮询计数用作验证阈值违规的默认策略。您可以通过对指定的阈值策略应用多个条件(>、<、=、>=、<=)来验证阈值违规 。当应用于以下任何阈值策略的条件成立时,监视器的状态将更改为“故障”或“严重”:
    • 在轮询计数期间验证的阈值条件(轮询次数):当针对指定的“轮询计数”连续验证应用于阈值的条件时,监视器的状态变为故障或危急 。
    • 轮询计数期间的平均值(轮询次数) :当属性值的平均值(对于 配置的轮询次数)连续证明应用于阈值的条件时,监视器的状态变为故障或危急 。
    • 在持续时间内验证的条件(以分钟为单位) :当连续验证应用于阈值的指定条件时 ,对于所有轮询,在配置的 持续时间内,监视器的状态更改为故障或危急。
    • 持续时间内的平均值(以分钟为单位):当属性值的平均值在配置的 持续时间内持续证明应用于阈值的条件时, 监视器的状态变为故障或危急 。

    默认情况下不会应用多轮询检查策略。在无法应用策略的情况下,将仅针对单个轮询验证阈值违规。
    为确保应用于阈值违规检测的策略 “策略 3:持续时间或策略 4:持续时间内的平均值”的条件按预期工作,您必须确保指定的持续时间至少是应用该监视器的轮询频率。
  6. 单击保存。为服务器监视器创建的阈值和可用性配置文件将与已创建的其他配置文件一起自动列在“ 阈值和可用性 ”屏幕中。

支持的指标列表

  • 常规阈值:
    • 进程/服务关闭时通知:启用切换按钮以在进程/服务关闭时获得通知。您可以选择通过“故障”、“停机”或“严重”告警来接收通知。自动化也可以映射到此属性。
    • 资源检查失败时发出告警:启用切换按钮以在资源检查失败时触发告警(故障/停机/危急)。
    • 未进行数据收集时发出告警: 启用切换按钮以在数据收集停止时触发告警(故障/停机/严重)。
    • 磁盘分区关闭时通知:如果您想在从服务器中删除分区时收到告警(关闭),请切换“是”。
    • 网络适配器已关闭:启用切换按钮以在网络适配器关闭时触发故障告警。 
    • CPU 利用率阈值:当 CPU 利用率超过配置的阈值时,收到状态为故障或危急的通知。 
    • 内存利用率阈值:当内存利用率超过配置的阈值时,收到状态为故障或危急的通知。 
    • 磁盘利用率阈值:当磁盘利用率超过配置的阈值时,收到状态为故障或危急的通知。 
    • 分区磁盘利用率阈值:当分区的磁盘利用率超过配置的阈值时,收到状态为故障或危急的通知。这可以按字节、KB、MB、GB、TB 和百分比进行配置。
    • 进程 CPU 利用率阈值:当整个进程 CPU 利用率超过配置的阈值时,收到状态为故障或危急的通知。 
    • 进程内存利用率阈值:当整个进程内存利用率超过配置的阈值时,收到状态为故障或危急的通知。
    • 进程线程计数阈值:当整个进程线程阈值计数超过配置的计数时,收到状态为故障或危急的通知。 
    • 进程句柄计数阈值:当整个进程句柄阈值计数超过配置的计数时,收到状态为故障或危急的通知。 
    • 网络带宽超出:当带宽利用率超过配置值时收到通知。
    • 网络错误数据包阈值:当网络错误数据包超过配置的阈值时,收到状态为故障或危急的通知。
    • 交换内存使用阈值:当使用的交换内存超过配置值时收到通知。
    • 磁盘读取:当从磁盘读取的数据字节超过配置值时,收到状态为故障或危急的通知。
    • 磁盘写入:当写入磁盘的数据字节超过配置值时,收到状态为故障或危急的通知。
    • 磁盘 I/O:当总读/写或输入/输出操作超过配置值时,收到故障或危急状态通知。
    • 磁盘空闲百分比:当处于空闲状态的磁盘百分比超过配置值时,收到状态为故障或危急的通知。
    • 磁盘忙时百分比:当处于忙碌状态的磁盘百分比超过配置值时,收到状态为 Trouble 或 Critical 的通知。
    • 服务器正常运行时间:当服务器正常运行时间超过配置值时,收到故障或危急状态通知。这可以以毫秒、秒、分钟和小时为单位进行配置。
    • IP 地址:这是一个字符串属性。当给定的 IP 地址匹配/不匹配配置的值时,收到状态为故障或危急的通知。对于包含不包含的条件,您可以提供多个用逗号分隔的地址。对于On Change条件,不能配置任何值,另外您可以选择选择Send Alert,其中仅发送告警而不更改监视器状态。
    • RAM 大小:这是一个字符串属性。当 RAM 大小与配置值匹配/不匹配时,会收到故障或危急状态通知。 
    • 系统空闲百分比:当处于空闲状态的服务器百分比超过配置值时,收到状态为故障或危急的通知。
    • 运行进程计数阈值:当服务器上运行的进程总数超过配置的阈值时,收到状态为故障或危急的通知。
  • Windows 特定阈值:(从版本 15.3.1 开始支持)
    • 服务总数:当服务器上运行的服务总数超过配置的阈值时,收到状态为故障或危急的通知。
    • 处理器队列长度超过:当等待 CPU 资源的线程数超过配置的阈值时,收到状态为故障或危急的通知。
  • Linux 特定阈值:(从版本 14.7.0 开始支持)
    • 系统负载(1 分钟平均)阈值:当系统负载的 1 分钟平均值超过配置值时,收到故障或危急状态通知。
    • 系统负载(5 分钟平均)阈值:当系统负载的 5 分钟平均值超过配置值时,收到故障或危急状态通知。
    • 系统负载(15 分钟平均)阈值: 当系统负载的 15 分钟平均值超过配置值时,收到故障或危急状态通知。
    • 总进程计数阈值:当进程总数超过配置值时,收到状态为“故障”或“严重”的通知。
    • 阻塞进程计数阈值:当等待资源的进程数超过配置的阈值时,收到状态为“故障”或“严重”的通知。
    • CPU 用户空间阈值:当用于用户进程的 CPU 百分比超过配置值时,收到状态为故障或危急的通知。
    • CPU 硬件中断阈值:当服务硬件中断的 CPU 百分比超过配置值时,收到故障或危急状态通知 。
    • CPU闲时阈值:当处于空闲状态的 CPU 百分比超过配置值时,收到状态为故障或危急的通知。
    • CPU 软件中断阈值:当服务软件中断的 CPU 百分比超过配置值时,收到故障或危急状态通知。
    • CPU Nice 阈值:当处理低优先级进程的 CPU 百分比超过配置值时,收到状态为故障或危急的通知。
    • CPU 等待阈值:当等待 I/O 操作的 CPU 百分比超过配置值时,收到故障或危急状态通知。
    • CPU Steal 阈值:当Hypervisor 主机盗用它用于其他虚拟机的时间超过配置值时,收到状态为“故障”或“严重”的通知 。
    • CPU 系统阈值:当用于系统进程的 CPU 百分比超过配置值时,收到状态为故障或危急的通知。 

编辑阈值和可用性配置文件

  1. 单击要编辑的配置文件。
  2. 在“添加阈值配置文件” 窗口中编辑需要更改的参数 。
  3. 单击保存

删除阈值和可用性配置文件

  1. 单击需要删除的阈值和可用性屏幕中的配置文件。
  2. 这将导航到编辑阈值配置文件 窗口。
  3. 单击删除

相关文章

帮助手册 管理 阈值和可用性 阈值和可用性Server 监视器