Amazon EC2 监控集成
Amazon EC2 提供可调整大小的计算容量,帮助您在云中运行和扩展业务应用程序。借助 Site24x7 的监控功能,您可以在虚拟机监控程序级别(CloudWatch)和系统级别(代理)同时监控您的 EC2 实例。
概述
Site24x7 支持以下几种弹性计算云(EC2)实例监控模式:
- CloudWatch EC2 集成:监控基础架构基本指标,例如 CPU 使用率、实例存储卷的磁盘 I/O 统计数据、网络流量指标以及 CPU 积分使用情况。
- 增强型 EC2 监控(CloudWatch 集成 + 代理方式):通过在 EC2 实例上部署轻量级代理,监控深层系统级指标,例如内存利用率、EBS 磁盘使用情况、CPU 窃取、进程级别信息和应用程序指标。
- 监控容量预留:监控 EC2 实例的按需容量预留情况。
- CloudWatch 代理与 Amazon EC2 服务器集成
设置与配置
- 如果尚未完成,请通过创建 Site24x7 IAM 用户或在您的账户与 Site24x7 的 AWS 账户之间创建跨账户 IAM 角色,来启用对 AWS 资源的访问权限。了解更多。
- 接下来,在集成 AWS 账户页面,请确保在待发现的服务字段中选中了 EC2 实例复选框。了解更多。
Site24x7 仅会发现处于运行状态的实例。
策略和权限
请确保分配给 Site24x7 IAM 实体的策略文档中包含以下读取级别操作。了解更多。
- "ec2:DescribeAddresses",
- "ec2:DescribeInstances",
- "ec2:DescribeSnapshotAttribute",
- "ec2:DescribeInstanceAttribute",
- "ec2:DescribeSnapshots",
- "ec2:DescribeInstanceCreditSpecifications",
- "ec2:GetConsoleOutput",
- "ec2:DescribeImages",
- "ec2:DescribeVolumeStatus",
- "ec2:DescribeAvailabilityZones",
- "ec2:DescribeVolumes",
- "ec2:DescribeAccountAttributes",
- "ec2:DescribeElasticGpus",
- "ec2:DescribeInstanceStatus",
- "ec2:DescribeVpcs",
- "ec2:DescribeFlowLogs",
- "ec2:DescribeNatGateways",
- "ec2:DescribeSubnets",
- "ec2:DescribeVpcEndpoints",
- "ec2:DescribeVpnConnections",
- "ec2:DescribeVpcPeeringConnections",
- "ec2:DescribeRouteTables",
- "ec2:DescribeNetworkAcls",
- "autoscaling:DescribeAutoScalingInstances",
- "autoscaling:DescribeAutoScalingGroups"
容量预留所需权限:
- "ec2:DescribeAddresses",
- "ec2:DescribeCapacityReservations",
- "ec2:DescribeInstances",
- "ec2:GetCapacityReservationUsage"
轮询频率
基础架构基本指标通过查询 CloudWatch API,按照设置的轮询频率(1 分钟至 1 天)进行采集。了解更多。
支持的配置标签
配置标签是由键值对组成的标签,用于标识、分类和管理 EC2 资源的配置详情。它们通过实现有针对性、高效且灵活的工作流,可以显著增强 IT 自动化和维护计划。
EC2 监控支持的配置标签如下:
- aws_instance_id:EC2 实例 ID
- aws_region:资源所在区域
- aws_ipaddress:EC2 实例的公共 IP 地址
- aws_instance_type:EC2 的实例类型
IT 自动化
您可以为 Site24x7 支持的 AWS 服务添加自动化操作。登录 Site24x7 并前往管理 > IT 自动化模板 (+) > 添加自动化模板。添加自动化操作后,您可以安排这些操作按顺序依次执行。
现在,您可以使用 Amazon EC2 自动化来启动、停止、带休眠停止以及重启 EC2 实例。
资源级别拓扑
EC2 集成监视器中的拓扑视图选项卡提供了一个实时的以资源为中心的依赖关系图。它能动态追踪您的 EC2 资源与周边 AWS 基础架构的实时连接关系,在告警触发时加速根因定位。若某个关联组件处于严重状态,拓扑视图中会相应标记,并显示中断原因,使工程师无需离开监视器页面即可精准定位故障点。与账户级别的拓扑视图不同,此选项卡将可视化范围限定在单个资源,精确回答以下问题:该 EC2 监视器连接到哪些资源,以及它出现问题时会影响什么?您可以从单个资源出发,沿依赖链追溯至其主要父级实体,直至服务类型、区域和 AWS 账户层级。
安全发现
通过在单一控制台中集成 Amazon Inspector 与 EC2,以及 Amazon GuardDuty 与 EC2,加固您的 Amazon EC2 实例以抵御网络攻击。Inspector 和 GuardDuty 针对 Amazon EC2 的发现项可按严重级别进行分组。分组功能允许您对严重性类别进行排序,并列出相应的规则包名称及相关备注(如有)。
除了为受监控的 EC2 实例添加这些阈值配置之外,您还可以选择设置阈值并在以下情况下接收通知:
- 基于严重级别(高、低、中、信息性或总计数)的安全发现项,位于 Inspector/GuardDuty 阈值配置下。
- 加速器配置,例如 GPU 内存利用率、加速器内存使用情况和加速器利用率。

CloudWatch EC2 集成支持的指标
CPU 积分指标
| 属性 | 描述 | 统计方式 | 数据类型 |
|---|---|---|---|
| CPU 积分使用量 | 衡量实例消耗的 CPU 积分数量 | 平均值 | 计数 |
| CPU 积分余额 | 衡量实例累积的已赚取 CPU 积分数量 | 平均值 | 计数 |
| CPU 超额积分余额 | 衡量 T2 无限实例消耗的超额积分数量 | 平均值 | 计数 |
| CPU 超额积分已收费 | 衡量未被已赚取 CPU 积分抵扣的已消耗超额积分数量 | 平均值 | 计数 |
资源使用指标
| 属性 | 描述 | 统计方式 | 数据类型 |
|---|---|---|---|
| CPU 利用率 | 衡量实例当前使用的已分配 CPU 单元百分比 | 平均值 | 百分比 |
| 磁盘读取操作数 | 衡量所有实例卷上已完成的读取操作数 | 平均值 | 计数 |
| 磁盘写入操作数 | 衡量所有实例卷上已完成的写入操作数 | 平均值 | 计数 |
| 磁盘读取字节数 | 衡量从所有实例存储卷读取的字节数 | 平均值 | 字节 |
| 磁盘写入字节数 | 写入所有实例存储卷的字节数 | 平均值 | 字节 |
| 网络流入 | 衡量所有网络接口接收的字节数 | 平均值 | 计数 |
| 网络流出 | 衡量通过所有网络接口发出的字节数 | 平均值 | 计数 |
| 网络流入数据包数 | 衡量所有网络接口接收的数据包数 | 平均值 | 计数 |
| 网络流出数据包数 | 衡量通过所有网络接口发出的数据包数 | 平均值 | 计数 |
| 无令牌元数据 | 使用不含令牌方法成功访问实例元数据服务的次数 | 求和 | 计数 |
基于 Nitro 实例的 EBS 指标
| 属性 | 描述 | 统计方式 | 数据类型 |
|---|---|---|---|
| EBS 读取操作数 | 在指定时间段内,从挂载到实例的所有 Amazon EBS 卷完成的读取操作数 | 平均值 | 计数 |
| EBS 写入操作数 | 在指定时间段内,向挂载到实例的所有 EBS 卷完成的写入操作数 | 平均值 | 计数 |
| EBS 读取字节数 | 在指定时间段内,从挂载到实例的所有 EBS 卷读取的字节数 | 平均值 | MB |
| EBS 写入字节数 | 在指定时间段内,向挂载到实例的所有 EBS 卷写入的字节数 | 平均值 | MB |
| EBS I/O 余额百分比 | 提供突发桶中剩余 I/O 积分百分比的信息 | 平均值 | 百分比 |
| EBS 字节余额百分比 | 提供突发桶中剩余吞吐量积分百分比的信息 | 平均值 | 百分比 |
卷指标
EC2 实例支持的卷指标详见此处。
加速器指标
Elastic Inference 指标
Amazon Elastic Inference (EI) 是一种可附加到 Amazon EC2 实例的资源,用于加速深度学习 (DL) 推理工作负载。可监控连接到 EC2 实例的 Elastic Inference 的连接性和性能。
| 属性 | 描述 | 统计方式 | 数据类型 |
|---|---|---|---|
| 加速器健康检查 | 报告 Elastic Inference 加速器在过去一分钟内是否通过状态健康检查。值为零 (0) 表示状态检查失败,值为 1 (1) 表示状态检查通过。 | 最小值 | 计数 |
| 加速器连接检查 | 报告与 Elastic Inference 加速器的连接是否正常或已失败。值为零 (0) 表示连接失败,值为 1 (1) 表示连接成功。 | 最小值 | 计数 |
| 加速器内存使用量 | 衡量 Amazon Elastic Inference 加速器的内存使用量 | 求和 | 字节 |
Elastic Graphics 指标
Amazon Elastic Graphics 为您的 Windows 实例提供灵活、低成本、高性能的图形加速功能。可监控连接到 EC2 实例的 Elastic Graphics 加速器的连接性和性能。
| 属性 | 描述 | 统计方式 | 数据类型 |
|---|---|---|---|
| GPU 连接检查 | 报告与 Elastic Graphics 加速器的连接是否正常或已失败。值为零 (0) 表示连接失败,值为 1 (1) 表示连接成功。 | 最小值 | 计数 |
| GPU 健康检查 | 报告 Elastic Graphics 加速器在过去一分钟内是否通过状态健康检查。值为零 (0) 表示状态检查失败,值为 1 (1) 表示状态检查通过。 | 最小值 | 计数 |
| GPU 内存利用率 | 衡量已使用的 GPU 内存量 | 求和 | MiB |
实例状态检查
| 属性 | 描述 |
|---|---|
| 状态检查失败 | 报告实例在过去 1 分钟内是否同时通过了实例可达性和系统可达性检查 |
| 状态检查失败_实例 | 报告实例在过去 1 分钟内是否通过了实例可达性检查 |
| 状态检查失败_系统 | 报告实例在过去 1 分钟内是否通过了系统可达性检查 |
| 状态检查失败_已挂载EBS | 报告挂载到实例的一个或多个 EBS 卷是否无法完成 I/O 操作 |
配置详情:
| 参数 | 描述 |
|---|---|
| 公共主机名 | 显示实例的主机名 |
| 公共 IP 地址 | 显示实例的 IP 地址 |
| 实例类型 | 指示 EC2 实例的类型 |
| 实例启动时间 | 显示该 EC2 实例的启动时间 |
| 区域 | 实例运行所在区域的名称 |
| 实例状态 | 表示实例的运行状态 |
| 镜像 ID | 列出用于启动实例的 AMI 镜像 ID |
| AMI 启动索引 | 可用于在启动组中定位某个实例 |
| 私有 DNS 名称 | 分配给实例的私有 DNS 名称 |
| 私有 IP 地址 | 实例的私有 IP 地址 |
| 可用区 | 实例所在的可用区 |
| 架构 | 镜像的架构类型 |
| RAM 磁盘 ID | 与实例关联的 RAM 磁盘 |
| 内核标识符 | 与实例关联的内核 |
| 根设备类型 | AMI 使用的根设备类型 |
| 根设备名称 | AMI 使用的根设备名称 |
请为受监控的 EC2 实例添加阈值配置文件。了解更多。
增强型 EC2 监控(EC2 CloudWatch 与代理集成)
您也可以在 EC2 实例上部署代理,以获取更细粒度的性能数据。部署后,您可以在查看基本 EC2 实例属性(如上所述,通过 CloudWatch 获取)的同时,并排查看系统属性(内存/交换空间使用情况)、进程属性(线程/句柄计数)、磁盘属性(可用/已用磁盘空间)和网络属性(错误/丢弃数据包)。
如需了解如何为 EC2 实例启用 EC2 CloudWatch 与代理集成,请参阅产品文档。该文档还详细介绍了前提条件、附加优势、界面功能和代理部署步骤。
您还可以接收集成服务器告警组的通知。了解更多。
集成后您将获得的额外属性列举如下。
轮询频率
系统级指标每分钟或每 5 分钟采集一次。
系统级属性
| 参数 | 描述 |
|---|---|
| 物理 CPU 使用率 | CPU 综合利用率(百分比) |
| 内存利用率 | 内存综合利用率(百分比) |
| 1 分钟平均负载 | 过去 1 分钟内等待 CPU 时间的任务或进程平均数量 |
| 5 分钟平均负载 | 过去 5 分钟内等待 CPU 时间的任务或进程平均数量 |
| 15 分钟平均负载 | 过去 15 分钟内等待 CPU 时间的任务或进程平均数量 |
| 内存总量 | 可用内存总量(字节) |
| 空闲内存 | 当前空闲的内存量 |
| 已用内存 | 当前已使用的内存量 |
| 交换空间总量 | 可用交换空间总量 |
| 空闲交换空间 | 当前空闲的交换空间量 |
| 已用交换空间 | 当前已使用的交换空间量 |
| 已用磁盘 | 已使用的磁盘空间(百分比) |
| 空闲磁盘 | 空闲磁盘空间(百分比) |
| 系统繁忙时间 | CPU 在用户态或内核态运行所消耗的时间 |
| 系统空闲时间 | CPU 处于空闲状态所消耗的时间 |
进程级别属性
| 参数 | 描述 |
|---|---|
| 进程 ID | 进程的唯一标识号 |
| CPU 利用率 | 进程使用的 CPU 用量 |
| 内存利用率 | 进程占用的物理内存量 |
| 线程数 | 进程的活动线程数量 |
| 句柄数 | 对象句柄的数量 |
网络属性
| 参数 | 描述 |
|---|---|
| 网络接口卡名称 | 弹性网络接口卡的接口名称 |
| 错误数据包 | 丢弃的网络数据包数量 |
| 发送字节数 | 弹性网络接口每秒发送的字节数 |
| 接收字节数 | 弹性网络接口每秒接收的字节数 |
| 发送数据包数 | 弹性网络接口每秒发送的数据包数 |
| 接收数据包数 | 弹性网络接口每秒接收的数据包数 |
附加配置详情
| 参数 | 描述 |
|---|---|
| 主机名/IP | EC2 主机的主机名/IP |
| IP 地址 | EC2 主机的 IP 地址 |
| 操作系统 | EC2 主机当前运行的操作系统类型 |
| 操作系统架构 | 处理器架构——32 位或 64 位 |
| 已安装内存(MB) | EC2 主机上安装的内存 |
| CPU 核心数 | EC2 主机上的逻辑 CPU 核心数 |
| 处理器 | 所使用处理器的规格 |
从 EC2 监视器分离服务器监视器
如需从 EC2 监视器分离服务器监视器,请按以下步骤操作:
- 导航至云 > AWS > EC2 实例。
- 单击您希望分离的 EC2 监视器名称旁边的汉堡菜单图标
。

- 单击分离。
监控容量预留
您现在可以监控特定可用区内 AWS EC2 实例预留容量的使用情况,并在超出阈值时识别已用/未用容量。在受监控资源选项卡下查看关联的 EC2 实例及其状态,并设置阈值,以便在任何实例出现故障时及时收到通知。
容量预留的性能指标
| 属性 | 描述 | 统计方式 | 数据类型 |
|---|---|---|---|
| 已用实例数 | 当前正在使用的实例数。 注意:如果资源被共享,该指标在账户级别也可用。 |
最大值 | 计数 |
| 可用实例数 | 当前可用的实例数 | 最小值 | 计数 |
| 实例总数 | 您已预留的实例总数 | 最大值 | 计数 |
| 实例利用率 | 当前正在使用的预留容量实例百分比 | 平均值 | 计数 |
使用场景
- 在特定时间段运行批量工作负载时,监控未使用的容量有助于避免产生额外费用。
- 在账户级别监控已用实例数并设置阈值,以识别容量使用情况。
预测
估算以下性能指标的未来值,为增加容量或扩展 AWS 基础架构做出明智决策。
- CPU 利用率
- 网络流入
- 网络流出
- CPU 积分使用量
- CPU 积分余额
- CPU 超额积分余额
同样,您也可以查看以下 EC2 监视器容量预留指标的预测:
- 实例利用率
CloudWatch 代理与 Amazon EC2 服务器集成
将 EC2 服务器与 CloudWatch 代理集成,获取详细的性能指标。

