自动化启动、停止、停止休眠和重启 EC2 实例

使用 Site24x7 的 IT 自动化框架,您可以创建一个动作配置文件来启动、停止、停止休眠或重启 EC2 实例。您可以设置为通过将其映射到阈值或告警事件类型(Up、Down 和 Trouble)来自动触发自动化,或者您可以通过从 Site24x7 控制台手动调用操作来直接调用 API。

所需权限

请确保 Site24x7 承担的 IAM 角色或为 Site24x7 创建的 IAM 用户在附加的策略文档中具有以下部分写入操作以执行这些操作。

  • "ec2:StartInstances"
  • "ec2:StopInstances"
  • "ec2:RebootInstances"

约束

  • EC2 实例需要处于运行状态,并且需要被 Site24x7 监控才能成功执行操作。
  • 您无法对处于挂起状态的实例执行操作。

创建动作配置文件

  • 登录到 Site24x7 Web 控制台,选择管理IT 自动化模板
  • 单击添加自动化并 通过单击下拉菜单选择启动/停止/停止休眠/重新启动 EC2作为类型
  • 在“显示名称”字段中输入唯一名称
  • 单击下拉菜单并选择要执行的操作。
  • 接下来,选择要在其中执行操作的 EC2 实例。(如果您选择选项$LOCALHOST,则将在映射自动化配置文件的所有那些 EC2 实例上执行操作)
  • 最大允许动作执行时间:Site24x7 在请求超时之前必须等待的最大秒数。默认情况下,执行时间设置为 15 秒您可以定义1-90 秒之间的执行时间 。
  • 通过电子邮件发送自动化结果:您可以通过切换到是来选择接收有关自动化结果的电子邮件。通过电子邮件将自动化结果共享给在通知配置文件中配置用户告警组。此电子邮件将包含参数,包括自动化名称、自动化类型、事件原因、目标主机等。
  • 保存配置文件。

模拟自动化

在映射动作配置文件之前,您可以通过在 Site24x7 控制台中手动调用操作或使用我们的 REST API 来测试其功能。创建配置文件后,导航回 IT 自动化摘要页面(管理员IT 自动化)并单击 执行测试运行。

映射动作配置文件

要执行自动化,请将动作配置文件映射到所需的告警事件。您可以将配置文件映射到预定义的监视器级别事件类型(正常/停机/故障)或自定义属性级别事件类型。(CPU 使用率 > 90%)。

监视器级别映射

导航到监控的 EC2 实例的编辑监视器页面(“EC2 实例监视器页面”> > 编辑),并将动作配置文件映射到以下任何监视器状态更改。

    • 停机执行
    • 正常执行
    • 遇到问题执行
    • 执行任何状态更改

属性级映射

您还可以将动作配置文件与 EC2 相关的指标数据点相关联,例如 CPU 使用率、内存使用率或负载均衡相关的指标延迟、HTTP 4xx 等。导航到监控的 EC2 实例的编辑阈值配置文件页面(导航到资源的编辑监视器页面 > 单击阈值和可用性字段旁边的铅笔图标)并通过单击“选择”将配置文件映射到任何所需的属性自动化执行”字段。

用例

  • 对状态检查失败的实例进行故障排除:您可以通过以下方式创建映射:每当您监控的 Amazon EC2 实例出现系统或实例可访问性检查失败时,自动触发重启所述实例或停止和启动实例的自动操作.
  • 防止内存不足故障:将 EC2 重新启动动作配置文件映射到指标数据点内存利用率,并将其设置为在内存使用量开始危险地攀升至接近阈值限制时触发
  • 减少消耗的实例小时数:将 EC2 停止动作配置文件映射到 CPU 使用率和网络利用率等指标数据点,以识别未充分利用的实例并停止它们。