属性告警组

如何在告警中使用属性告警组?

每个组织都有多个子团队,例如基础架构、应用程序和运营团队。每个子团队主动监控一组 IT 资源及其相关属性,以确保运营成功。例如,基础架构团队对服务器的正常运行时间感兴趣,而应用程序团队负责该服务器上的应用程序性能。因此,对于运维来说,只获得正常运行时间和可能的磁盘已满告警是很有用的,而所有其他告警都可以交给应用程序团队。您可以定义特定的属性告警组来简化告警,以便快速修复问题。

下面介绍如何使用属性告警组。假设您是 DevOps 团队的一员,并且您希望单独接收与服务器监视器属性(例如 CPU 利用率、磁盘已用空间 (%) 等)有关的告警。你怎么能实现它?首先,您必须创建一个基于属性的模板(我们称之为“DevOps 模板”),仅托管您想要监控的相关服务器属性。假设您添加了以下服务器属性:

  • 可用性
  • CPU 利用率
  • 磁盘已用空间 (%)
  • 磁盘可用空间 (%)
  • 磁盘读取
  • 磁盘写入

理想情况下,您只希望在违反这些服务器监视器属性的设置阈值时接收告警。创建属性模板后,将模板与您的预配置用户告警组“DevOps 团队”相关联(该组又与您的服务器监视器链接)。下次,您的服务器监视器遇到中断时,告警引擎将首先验证 DevOps 模板中列出的任何属性是否触发了中断。如果它发现这是真的,则会立即向 DevOps 团队触发告警。但是,如果中断不是由上述任何属性引起的,则会自动抑制告警。即使这样,事件也不会丢失,因为它会记录在告警日志中,并带有记录“监视器名称+“没有配置为接收告警的联系人:”+ 属性名称“。因此,您可以创建基于唯一属性的告警模板并将其关联到您的告警组以自定义您的告警策略。

下面列出了属性告警组的一些其他导入方面:

  • 属性“可用性”是一个指标,它与所有监视器类型密切相关。监视器的可用性属性会根据监视器的状态(正常或 停机)而变化。
  • 插件和自定义指标监视器不支持属性告警组。
  • 此功能不会对升级告警产生任何影响。但是,它将根据配置覆盖持久告警。了解更多
  • 对于监视器类型,例如具有进程的服务器监视器或具有多个网络接口的网络设备,无论是子属性还是父属性的阈值违反,告警都将发送到所有关联的告警联系人组。
  • 各个监视器类型下列出的属性可以位于监视器类型的阈值表单或添加表单中。
  • 任何第三方集成都不支持属性告警组。
  • 某些属性可能具有附加的(监视器类型)相同的名称,这意味着所述属性专门与该监视器类型相关联。例如,交换使用情况(EC Memcached 节点)和交换使用情况(RDS 实例)。

创建属性告警组

您可以按照下列步骤创建属性告警组:

  • 登录站点 24x7
  • 导航到管理 > 用户和告警管理 > 属性告警组
  • 系统会提示您一个对话框,要求您输入相关详细信息:
    • 显示名称:为您的属性告警组提供名称。
    • 监视器类型过滤器:选择您帐户中可用的多个或所有监视器类型以排序和查看所有相关的性能属性。
    • 属性:通过从可用属性池中选择一组性能属性或所有属性来创建自定义属性告警组。
    • 单击保存按钮以创建您的属性告警组。

  • 创建属性告警组后,它会列在仪表板中。 默认情况下,系统会生成一个全部属性告警组
    全部属性告警组 是系统生成的配置文件,其中包含链接到您帐户中所有监视器的性能属性的完整列表。一旦所有属性告警组与您的用户告警组相关联,该组中的所有用户都会收到有关所有监视器中断的通知。在这种情况下,属性级告警验证将被忽略。