帮助手册

Site24x7 中的智能分组

使用 Site24x7 的智能分组,自动整理具有依赖关系或属于同一基础设施的监视器。通过利用拓扑结构以及跨网络拓扑、应用调用、服务器和网络通信、基于 FQDN/IP 的关系以及 Kubernetes 等动态环境的应用发现与依赖关系映射(ADDM),智能分组为您提供资源的上下文统一视图。

Note

智能分组仅对企业版用户开放。

使用场景

  • 事件关联:当数据库崩溃触发多个告警(如 Web 服务器宕机、API 故障、应用错误),事件关联工具会将这些告警归组,并将数据库崩溃标识为根本原因,从而减少噪声、加速解决。
  • 加速根本原因分析:当 Web 服务器中断触发跨应用、数据库和 API 的多个告警时,智能分组将对这些事件进行关联,并追溯到发生故障的服务器。
  • Kubernetes 环境:Pod、服务和节点自动分组,团队可在一处查看 Kubernetes 集群内的健康状况、依赖关系和问题。
  • 简化运维:组级别的中断、日志和问题洞察减少了跨多个监视器进行导航的工作量。

智能分组支持的模块

访问智能分组

前提条件:要启用智能分组,您需要在账户中配置 APM、Kubernetes、互联网服务监视器、ADDMLayer 2 地图

  1. 登录 Site24x7。
  2. 导航至管理员 > 清单 > 智能分组
  3. 智能分组列表页面,点击所需的智能分组,查看以下详情:
    • 摘要:拓扑地图和关联问题的快速视图。
    • 监视器列表:智能分组中的监视器列表,包括类型和最后轮询数据。
    • 问题:与该智能分组关联的相关问题。
    • 拓扑地图:使用 ADDM 识别的监视器依赖关系地图。
    • 业务视图:关键服务和应用的高层次视图。
    • 告警日志:关联的告警日志。
    • 基础设施事件:关联的事件。
    • 中断:关联的中断情况。

智能分组的更多操作

在每个智能分组中,您可以:

如何编辑智能分组

按照以下步骤编辑智能分组:

  1. 选择所需的智能分组。
  2. 点击分组名称旁边的汉堡图标 ,选择编辑

您可以通过以下方式编辑智能分组:

修改数据流设置

上游和下游显示智能分组之间的关系,以及事务、请求或依赖关系在基础设施不同层次之间的流向。 

  • 上游是指向另一个智能分组发送请求或依赖关系的源层。例如,将流量路由到应用智能分组的网络智能分组,意味着网络中断可能直接影响应用的可用性。
  • 下游是指接收请求或依赖另一个智能分组的目标层。例如,支撑 Kubernetes 部署智能分组的 Kubernetes 基础设施智能分组,意味着基础设施故障可能影响已部署的工作负载。

配置后,此设置将在"问题"中显示类似拓扑地图的结构,帮助可视化服务依赖关系并追踪影响的传播路径。

向智能分组添加资源

按照以下步骤向智能分组添加资源:

  1. 编辑智能分组页面的添加附加资源部分,将资源类型设置为标签监视器分组
  2. 使用 + 图标从下拉菜单中选择附加监视器,将其添加到智能分组。
Note

当用户删除与之关联的 APM、Kubernetes 或 Layer 2 地图时,智能分组将自动删除。

为智能分组配置健康检查配置文件

智能分组的健康检查配置文件有助于确定一组相关监视器的整体健康状态。通过在智能分组级别定义健康评估规则,您可以根据成员的整体状态控制何时将分组标记为宕机严重故障,从而实现精准告警、高效关联和减少告警噪声。健康检查配置文件可用于:

  • 将多个相关监视器作为单一逻辑单元进行健康评估。
  • 防止因暂时性或局部故障导致的误报告警。
  • 将多个告警关联为有意义的事件。
  • 对分组资源统一应用宕机时间和阈值规则。

按照以下步骤为智能分组配置健康检查:

  1. 健康检查配置部分,点击健康检查配置文件字段旁边的 + 图标添加阈值配置文件。
  2. 监视器类型下拉菜单中选择健康检查
  3. 显示名称字段中填写适当的名称。
  4. 启用将智能分组状态与健康检查状态同步,以确保智能分组的状态反映评估后的健康检查结果,而非各监视器的独立状态。
  5. 静音被监控资源的告警选择为,以抑制来自各监视器的告警,避免在评估智能分组健康状态时产生重复通知。
  6. 当被监控资源处于宕机/故障/严重状态时以故障通知选择为,以确保当任何单个资源出现异常时,智能分组被标记为故障,从而避免不必要地升级为严重宕机,同时仍能反映局部影响。
  7. 静音子分组告警选择为,以阻止来自子分组的告警,减少来自依赖资源的告警噪声。
  8. 按数量阈值通知选择为,以便仅在定义数量的监视器违反配置的阈值时才接收告警。

情景

将智能分组状态与健康检查状态同步设置为

按数量阈值通知设置为

结果

1

是/否

智能分组状态与健康检查状态同步。

2

智能分组状态不与健康检查状态同步。

但是,健康检查状态将根据监视器数量阈值更新,以决定智能分组的状态。

3

智能分组状态根据监视器数量阈值更新,以决定智能分组的状态。

健康检查状态根据健康检查阈值配置更新。

9. 支持的指标将显示在阈值配置部分。您可以为所有支持的指标设置阈值。

10. 使用高级阈值配置,通过逻辑运算符组合多个条件,为智能分组定义复杂的健康评估场景。

11. 点击保存

修改关联时间窗口

  1. 在同一页面的关联设置部分,将为各层自定义关联时间窗口选项设置为
  2. 为每个事件层配置关联时间窗口(默认为 10 分钟)。

配置业务影响

您可以指定此分组的服务或监视器每小时为您的业务创造的收入。Site24x7 使用此值计算发生事件时的潜在收入损失,帮助您优先处理关键问题。

1. 在业务影响设置下,以美元配置每小时业务收入选项,以量化智能分组宕机时间的财务影响。

配置告警设置和集成

配置告警和集成,以便实时通知相关团队和工具智能分组的关键问题。

  1. 告警设置下,选择用户告警分组,或点击添加用户分组新建一个用户告警分组。
  2. 值班计划通知配置文件选项中,从下拉菜单选择所需的设置。
  3. 第三方集成下,配置在出现问题时需要与之通信的第三方工具。

如何管理智能分组的用户访问权限

管理智能分组的用户访问权限,确保只有授权用户才能查看或管理该分组中的监视器和洞察信息。按照以下步骤为智能分组分配用户访问权限:

  1. 选择所需的智能分组。
  2. 点击分组名称旁边的汉堡图标 ,选择管理用户访问权限
  3. 使用"管理此监视器分组的用户访问权限"表单进行配置:
    • 添加用户:从下拉菜单中选择并分配应有权访问该智能分组的用户。
      Note

      具有所有监视器全局访问权限的用户将自动获得所有智能分组的访问权限。

  4. 点击保存确认访问权限。

相关文章

本文档对您有帮助吗?

您愿意帮助我们改进文档吗?请告诉我们哪些方面可以做得更好。


很抱歉本文档未能让您满意。我们希望了解可以从哪些方面改进您的体验。


感谢您抽出时间分享反馈。我们将利用您的反馈来改进在线帮助资源。

短链接已复制!