帮助手册 管理 配置文件 为 EC2 实例和 EBS 卷设置阈值

EC2 实例和 EBS 卷的阈值配置

Site24x7 利用各种 AWS 服务级别 API 从每个可用区自动发现所有正在运行的 EC2 实例及其附加的 EBS 卷。完成后,它会在 Site24x7 控制台中为每个实例创建一个 EC2 CloudWatch 监视器。

当发现一个 EC2 实例(常规或 Auto Scaling)并添加为监视器时,会为其分配一个默认阈值配置文件。重要的是要注意,此配置文件不会有任何预填充的阈值。您可以编辑默认配置文件或为自己创建一个新配置文件。

要为监控的 EC2 实例及其附加的弹性块存储 (EBS) 卷创建新的阈值配置文件,请按照以下步骤操作。如果您想了解有关如何创建告警联系人和自定义告警设置的更多信息,请访问我们的用户和告警管理页面

概述

为您的 EC2 CloudWatch 监视器创建阈值配置文件

  • 点击管理配置文件设备值和可用性
  • 单击阈值和可用性屏幕中的添加阈 值
  • 指定以下详细信息:
    • 监视器类型:从下拉列表中选择 EC2 实例监视器。
    • 显示名称:提供标签以供识别。

    您的 EC2 实例和 EBS 卷支持的性能指标如下所示。在提供的字段中配置值,设置条件(>、<、>=、<=)并为每个属性分配告警策略。您在每个字段中设置的值将定义阈值。如果发生阈值违规,EC2 实例 CloudWatch 监视器的状态将从 Up 变为 Trouble,从而触发告警。完成阈值配置后,您可以继续保存配置文件。完成后,配置文件将列在“阈值和可用性”页面中。

    在阈值配置文件中可以看到以下字段:

    Auto Scaling 实例终止通知

    切换“是”以在 Auto Scaling 创建实例时收到通知。

    Auto Scaling 实例创建通知

    切换“是”以在实例被 Auto Scaling 终止时收到通知。

    通知代理失败

    仅当您在已监控的 EC2 实例上部署了 Linux 或 Windows 代理时,“通知代理”故障切换框才会生效。

    通知状态检查失败

    当特定硬件或软件问题开始困扰您的 EC2 实例环境时,立即获得告警。
    默认情况下,EC2 状态检查失败告警——系统状态检查和实例状态检查失败,常规和 AutoScaling 实例均默认启用。使用切换框,您还可以通过将切换切换到“严重”、“故障”或“关闭”来配置在状态检查失败时如何收到通知。如果您觉得不需要进行状态检查,那么您可以导航到附加到您的 EC2 实例的阈值配置文件并将切换设置为 NO,以将其关闭。

    通知 Spot 实例终止

    默认情况下,所有新连接的 AWS 账户都将禁用针对现场实例中断(终止)的告警通知。如果您觉得有必要发出通知现场车队终止的告警,您可以导航到附加的阈值配置文件并将切换设置为“”以将其打开或创建阈值配置文件并将其批量分配给您监控的现场车队。

    预留实例终止通知

    默认情况下,预留实例终止(标准、可转换和计划类型)的告警被禁用。如果您认为有必要通知,则导航到监控的预留实例的阈值配置文件并将切换交换机设置为“”以选择加入。您还可以创建新的阈值配置文件并批量分配。

    EMR 实例终止通知

    默认情况下,为您的 EMR 集群节点(主节点、核心节点和任务节点)供电的 EC2 实例组的终止告警处于静默状态。如果您需要电子邮件告警通知,请导航到监控实例的阈值配置文件并将切换设置为

    卷状态检查失败通知

    选择“”以获取有关 EBS 数据卷中任何潜在数据不一致的通知。卷状态检查是 AWS 每 5 分钟执行一次的自动化测试。如果测试通过,则卷状态报告为“OK”,如果失败,则卷状态受损。

    通知 GPU 连接检查失败

    选择以获取有关您的 EC2 实例和 GPU 之间的任何潜在连接问题的通知。GPU 连接检查是 AWS 每 5 分钟执行一次的自动化测试。如果测试通过,则 GPU 连接状态报告为“正常”,如果失败,则根据定义的属性将状态报告为停机/故障/危急。

    通知 GPU 健康检查失败

    选择以获取有关连接到 EC2 实例的 GPU 的任何潜在健康状况检查失败的通知。GPU 健康状况检查是 AWS 每 5 分钟执行一次的自动化测试。如果测试通过,GPU 健康状态状态将报告为“正常”,如果失败,则根据定义的属性将状态报告为停机/故障/危急。

    加速器健康检查失败通知

    选择可在连接到您的 EC2 实例的 Elastic Inference Accelerator (EI Accelerator) 的任何潜在健康状况检查失败时收到通知。EI 加速器健康状况检查是 AWS 每 5 分钟执行一次的自动化测试。如果测试通过,EI Accelerator Health 状态将报告为“正常”,如果测试失败,则根据定义的属性将状态报告为停机/故障/危急。

    通知加速器连接检查失败

    选择以获得有关您的 EC2 实例和 Elastic Inference Accelerator (EI Accelerator) 之间任何潜在连接问题的通知。EI 加速器连接检查是 AWS 每 5 分钟执行一次的自动化测试。如果测试通过,EI Accelerator 连接状态将报告为“正常”,如果失败,则根据定义的属性将状态报告为停机/故障/危急。

    EC2 属性

    根据 CPU 利用率、磁盘 I/O 和网络流量等性能指标监控您的 Amazon EC2 实例。Site24x7 为您发现的所有 EC2 实例收集标准性能数据。完成后,您可以使用 Site24x7 UI 为每个支持的属性配置阈值。

     

     

     

    卷阈值配置(EBS 属性)

    检测 Elastic Block Store 卷上的存储和 I/O 问题。为每个附加的 EBS 卷设置性能计数器的阈值,例如带宽、延迟和吞吐量。

    为多个 EBS 卷附加单个全局阈值配置文件

    要为您的弹性块存储 (EBS) 卷配置阈值,请访问 EC2 实例阈值配置文件(其中包含所有此 EBS 属性)。您可以编辑分配给 EC2 实例的默认阈值配置文件,也可以创建新的阈值配置文件并将其批量分配给所有监控的 EC2 实例。如果您在同一个 EC2 实例上附加了多个 EBS 卷,则为卷属性配置的阈值将应用于所有这些卷。

    为每个附加的 EBS 卷配置单独的阈值。

    如果您附加了多个 EBS 卷以增加存储容量或增加 I/O 带宽,例如,您可能主要将卷作为根卷运行并添加了两个单独的卷来处理数据库和存储工作负载,那么您可能需要为每个 EBS 卷配置单独的阈值。对于这种情况,您可以访问所述 EC2 实例监视器的卷选项卡,为每个卷设置单独的阈值配置文件。

    EBS-Volume-Tab  Threshold-Profile-For-Individual-EBS-Volume 

    集成 EC2 实例监视器的阈值配置文件

    当用户在已监控的 EC2 实例(通过我们的 CloudWatch 集成进行监控)上部署代理(Linux 或 Windows)时,集成的 EC2 实例监视器就会出现。这种类型的监视器将有两个与之关联的阈值配置文件。一个与基本实例级别 CloudWatch 指标有关,另一个与系统指标有关。

    要配置阈值,请按照以下提到的步骤导航到集成 EC2 实例监控页面的编辑部分:

    • 在控制台的左侧导航窗格中,选择AWS并选择监控的 AWS 账户。
    • 在菜单下拉菜单中,选择EC2 instance。选择您要为其配置阈值的集成 EC2 实例监视器。
    • 单击三横杠图标并选择编辑
    • 配置文件部分下的编辑页面中,您会发现有两个阈值配置文件字段。

    阈值可用性配置文件将包含与 CloudWatch 关联的标准 EC2 性能计数器。在这里,您还可以配置是否要在代理失败时收到告警。可以根据您的判断将此通知配置为故障或关闭。


    您可以选择在您的 Auto Scaling 实例终止时收到通知。为“通知 Auto Scaling 实例终止”选项选择“是”。监视器将暂停,并向您发送电子邮件告警,通知您。

    高级阈值设置

    您还可以通过配置条件和设置告警策略来验证您是否违反了阈值。例如,让我们考虑一个场景,您希望在您的实例 CPU 利用率超过 95% 时收到告警。但是,网络流量的峰值很可能会触发 CPU 的临时增加,可能超过 95%。对于这样的短期效果,您无需一开始就收到告警,可能是网络负载可以梳理回来,从而降低您的 CPU 利用率。对于这种情况,您可以配置一个告警策略,例如轮询计数或平均持续时间,以验证 CPU 峰值并检查它是永久的还是短暂的。

    高级阈值设置(策略):
    轮询计数用作验证阈值违规的默认策略。您可以通过对指定的阈值策略(=、>、<、>=、<=)来验证阈值违规当应用于以下任何阈值策略的条件成立时, 监视器的状态将更改为“Trouble”  
    • 在轮询计数期间验证的阈值条件(轮询次数):当应用到阈值的条件针对指定的“轮询计数”持续有效时,监视器的状态变为故障。
    • 轮询计数期间的平均值(轮询次数) :当属性值的平均值(对于配置的轮询次数)连续证明应用于阈值的条件时,监视器的状态变为故障。
    • 在持续时间内验证条件(以分钟为单位):当应用在阈值上的指定条件持续有效时,对于所有轮询,在配置的持续时间内,监视器的状态变为故障。
    • 持续时间内的平均值(以分钟为单位):当属性值的平均值在配置的持续时间内持续证明应用于阈值的条件时,监视器的状态变为故障。

    默认情况下不会应用多轮询检查策略。在无法应用策略的情况下,将仅针对单个轮询验证阈值违规。

     

    为确保应用于阈值违规检测的策略“策略 3:持续时间或策略 4:持续时间期间的平均值”的条件按预期工作,您必须确保指定的持续时间至少是应用该监视器的轮询频率。

帮助手册 管理 配置文件 Setting up thresholds for EC2 instance and EBS volume