帮助手册

监视器组和子组的健康检查

Site24x7 的健康检查功能评估监视器组或子组的可用性和健康状况,用于识别可能影响监视器组特定操作或工作负载的问题或潜在问题。您还可以选择接收告警,随时了解监视器组的健康状态。

使用场景

健康检查功能监控并跟踪监视器组和子组的整体健康状况和可用性。

当您在一个监视器组中将执行某个业务应用的多个资源分组时,分别监控每个资源并汇总可用性数据是非常繁琐的工作。Site24x7 的健康检查可帮助您查看和分析每个监视器的状态及其可用性,让您有效管理监视器。

健康检查的优势

通过为监视器组或子组配置健康检查,您可以获得以下优势:

  • 查看并跟踪监视器组中各个监视器的状态和中断情况。
  • 深入了解频繁发生状态变化的监视器并分析问题。
  • 配置阈值,在一个或多个监视器发生状态变化时接收告警。
  • 轻松识别处于告警、宕机或严重状态的监视器,并借助详细的根本原因分析(RCA)解决问题。
  • 跟踪资源的可用性并分析资源健康状况。
  • 根据健康检查阈值配置文件自定义监视器组或子组的状态。

支持的健康检查指标 

指标名称 描述 单位
 可用监视器数量  可用监视器的数量。  计数
 监视器总数  监视器的总数量。  计数
 已添加的监视器数量  已添加的监视器数量。  计数
 已删除的监视器数量  已删除的监视器数量。  计数
 可用性百分比  监视器可用性百分比。  百分比
 宕机监视器百分比  处于宕机状态的监视器百分比。  百分比
 严重监视器百分比  处于严重状态的监视器百分比。  百分比
 告警监视器百分比  处于告警状态的监视器百分比。  百分比
 维护中监视器百分比  处于维护中的监视器百分比。  百分比
已暂停监视器百分比 处于已暂停状态的监视器百分比。  百分比
可用监视器百分比 处于可用状态的监视器百分比。  百分比
总宕机时间 监视器的总宕机时间。  分钟
最短宕机时间 监视器的最短宕机时间。  分钟
最长宕机时间 监视器的最长宕机时间。  分钟
平均宕机时间 监视器的平均宕机时间。  分钟
宕机事件 宕机事件的数量。  事件
告警事件 告警事件的数量。  事件
严重事件 严重事件的数量。  事件
维护事件 维护事件的数量。  事件
暂停事件 暂停事件的数量。  事件

支持的子组指标

指标名称 描述 单位
 宕机子组数量  处于宕机状态的子组数量。  计数
 严重子组数量  处于严重状态的子组数量。  计数
 告警子组数量  处于宕机状态的子组数量。  计数
 正常运行子组数量  处于正常运行状态的子组数量。  计数

阈值配置

要为监视器组配置阈值:

  1. 登录您的 Site24x7 账户,前往监视器组
  2. 选择监视器组
  3. 点击编辑
  4. 健康检查配置部分,点击健康检查配置文件字段旁的 + 图标以添加阈值配置文件。
    注意
    • 要编辑阈值配置文件,请点击健康检查配置文件字段旁的铅笔图标。
    • 静音子组告警:在编辑健康检查配置文件添加健康检查配置文件页面中,将此选项切换为后,直接位于所选监视器组下的子组的告警将被抑制。 例如,考虑 Zylker 监视器组,它有三个子组:Zylker_sub1Zylker_sub2Zylker_sub3。此外,Zylker_sub2 有两个子组:Zylker_sub2AZylker_sub2B

      如果您将 Zylker 监视器组的告警设为静音,则 Zylker_sub1Zylker_sub2Zylker_sub3 子组的告警将被抑制,因为它们直接位于 Zylker 监视器组下。Zylker_sub2AZylker_sub2B 不受影响,因为它们不直接位于 Zylker 监视器组下。

      如果您仅将 Zylker_sub2 的告警设为静音,则 Zylker_sub2AZylker_sub2B 子组的告警将被抑制。Zylker 监视器组的其余部分,包括 Zylker_sub1Zylker_sub3 子组,将不受影响。
  5. 监视器类型下拉菜单中选择健康检查
  6. 显示名称字段中输入合适的名称。
  7. 支持的指标显示在阈值配置部分。您可以为上述所有指标设置阈值。
  8. 点击保存

静音监视器组健康检查告警

启用此选项将抑制由监视器组健康检查生成的所有告警。启用后,任何状态变化(包括 Site24x7 内部告警和发送到第三方集成的告警)都不会触发通知。这在计划维护、部署或配置测试期间非常有用,在这些情况下预期会发生临时状态变化且无需关注。也可用于非生产环境或已知问题,以最大程度减少告警噪音。

静音第三方集成告警

启用此选项将仅抑制发送到外部集成(如工单或事件管理工具)的告警,同时保留 Site24x7 内部的告警。启用后,状态变化仍可在平台上查看,但不会转发到外部系统。这对于希望在内部监控问题而不创建外部工单、避免在频繁状态变化期间产生过多工单,或在启用完整告警路由前验证集成的团队非常有帮助。如果监视器组健康检查告警被静音,则第三方集成告警将自动被抑制。

将监视器组状态与健康检查状态同步

将监视器组状态与健康检查状态同步选项(在添加健康检查配置文件页面或编辑健康检查配置文件页面中)默认设置为。当设置为时,监视器组状态将显示与健康检查状态相同的状态。

将监视器组状态与健康检查状态同步选项设置为时,监视器组状态将根据设置的监视器计数阈值来决定监视器组或子组状态进行更新。但是,健康检查状态(健康、严重、宕机或告警)将根据健康检查配置进行更新。

基于计数阈值的通知

基于计数阈值的通知(在添加健康检查配置文件页面或编辑健康检查配置文件页面中)选项默认设置为,以通知您健康检查和监视器组状态。此切换选项的功能也受将监视器组状态与健康检查状态同步选项的影响。

注意
  • 对于现有监视器组,将监视器组状态与健康检查状态同步基于计数阈值的通知选项默认都将设置为。如有需要,您需要将其设置为或创建新的阈值配置文件。
  • 对于新建监视器组,仅当新的阈值配置文件与监视器组关联时,将监视器组状态与健康检查状态同步基于计数阈值的通知选项默认都将设置为

下表列出了基于将监视器组状态与健康检查状态同步基于计数阈值的通知选项配置设置组合的各种场景及其对应的预期结果。

场景 将监视器组状态与健康检查状态同步切换为 基于计数阈值的通知切换为 结果
 1

是/否

监视器组状态将与健康检查状态同步。

 2

监视器组状态将不会与健康检查状态同步。

但是,健康检查状态将根据决定监视器组状态的监视器计数阈值进行更新。

 3

监视器组状态根据决定监视器组状态的监视器计数阈值进行更新。

健康检查状态根据健康检查阈值配置进行更新。

许可

健康检查支持所有付费账户和评估账户。

轮询频率

监视器组

在监视器组中,当存在处于宕机、告警或严重状态的监视器时,这些问题监视器中最短的可用轮询间隔将被设置为健康检查的默认轮询频率。

注意
仅当问题监视器持续处于宕机、告警或严重状态超过一小时时,默认轮询频率才会发生变化。

例如,假设您有一个监视器组,其中包含四个监视器:zylker 1、zylker 2、zylker 3 和 zylker 4,分别处于正常运行、宕机、告警和严重状态。假设这些监视器的轮询间隔分别为 1 分钟、3 分钟、5 分钟和 10 分钟。在这种情况下,zylker 2 的轮询间隔为 3 分钟,是所有问题监视器中最短的。因此,监视器组的默认轮询频率将设置为 3 分钟。

子组

对于子组,子组中所有问题监视器中最短的可用轮询间隔将被设置为健康检查的默认轮询频率。

注意
仅当问题监视器持续处于宕机、告警或严重状态超过一小时时,默认轮询频率才会发生变化。

例如,假设您有一个子组,其中包含两个监视器:zylker-subgroup 1 和 zylker-subgroup 2,分别处于宕机和严重状态。假设这些监视器的轮询间隔分别为 5 分钟和 3 分钟。在这种情况下,zylker-subgroup 2 的轮询频率为 3 分钟,是所有监视器中最短的。因此,子组的默认轮询频率将设置为 3 分钟。

了解健康检查中的维护期

维护期允许管理员对监视器或监视器组执行必要的维护活动,而不会触发不必要的告警。维护期可以提前计划或手动触发,两种方式都能确保监视器被标记为维护模式。

当您将监视器组中的某个监视器标记为维护时,监视器状态会在监视器级别立即反映。但是,在健康检查中,监视器的维护状态只会在下一个轮询周期内反映。

假设有一个名为 Zylker 监视器组的监视器组,其中包含四个监视器:zylker 1、zylker 2、zylker 3 和 zylker 4。假设 zylker 1 在上午 9:30 到下午 1:00 之间出现中断。

在上午 10:00,您将监视器 zylker 1 标记为维护中。这意味着:

  • 在 zylker 1 级别:
    • 从上午 9:30 到下午 1:00 的整个中断时间将被标记为维护。
  • 在健康检查级别: 
    • 中断时间为上午 9:30 到上午 10:00。
    • 上午 10:00 到下午 1:00 将被视为维护期。

因此,在健康检查中,当您将监视器组中的监视器标记为维护中时:

  • 监视器状态将在下一次轮询中更新。
  • 维护期将与中断详情一起显示,而不会改变已记录的中断持续时间(即上述场景中的上午 9:30 到上午 10:00)。

查看监视器组的健康检查数据

要查看监视器组的健康检查数据:

  1. 从左侧面板选择首页 > 监视器组
  2. 选择您首选的监视器组,然后前往健康检查选项卡。

健康检查选项卡顶部的横幅提供监视器组的概述。它显示监视器组状态、可用性百分比、监视器组中监视器的总数,以及处于正常运行、宕机、严重和告警状态的监视器数量。

查看子组的健康检查数据

要查看子组的健康检查数据:

  1. 从左侧面板选择首页 > 监视器组
  2. 选中右上角的显示子组复选框。
  3. 选择您首选的子组,然后前往健康检查选项卡。

健康检查选项卡顶部的横幅显示可用性、子组中监视器的总数,以及处于宕机、严重、告警和正常运行状态的监视器数量。

健康检查数据

创建监视器组或子组时,健康检查将自动启用。您可以在以下选项卡中查看健康检查数据:

可用性

可用性选项卡显示健康检查监视器的可用性、基于状态的事件,以及关联监视器的可用性状态(百分比/计数)。该部分的各种状态包括:正常运行、宕机、严重、告警和维护。

状态

状态选项卡显示监视器的详细状态,例如总宕机时间、宕机详情、总告警时间和告警时间详情。您可以使用状态筛选选项查看处于宕机/严重/告警状态的监视器。

被监控的资源

被监控的资源选项卡列出了映射到相应健康检查监视器下的所有监视器,以及它们的状态、中断开始时间和中断原因。

您可以通过点击阈值配置为监视器设置阈值。如果单个监视器的状态发生变化,监视器组状态也将根据阈值配置进行更新。

子组

父监视器组下的所有监视器以及子组中关联的监视器都显示在子组选项卡中。仅当监视器组有可用子组时,才会显示子组选项卡。您可以查看子组状态,并识别处于正常运行、宕机、严重和告警状态的监视器数量。

事件

您可以在事件选项卡中查看监视器的中断详情,例如中断的开始时间到结束时间、持续时间和中断原因。

日志报表

日志报表选项卡显示监控位置、时间、状态,以及一段时间内处于可用、宕机、告警或严重状态的监视器。

RCA

RCA 选项卡中查看宕机摘要详情及其他数据,例如状态事件、被监控的资源和中断历史记录。

本文档对您有帮助吗?

您愿意帮助我们改进文档吗?请告诉我们哪些方面可以做得更好。


很抱歉本文档未能让您满意。我们希望了解可以从哪些方面改进您的体验。


感谢您抽出时间分享反馈。我们将利用您的反馈来改进在线帮助资源。

短链接已复制!