阿里云弹性计算服务(ECS)监控集成
Site24x7 为阿里云环境中的弹性计算服务(ECS)实例提供开箱即用的全面监控。通过实时指标监控系统级性能,包括 CPU 使用率、内存消耗、磁盘 I/O、网络活动、GPU 利用率和进程行为。将阿里云账户与 Site24x7 集成后,所有关联的 ECS 实例将被自动发现并持续监控。
使用场景
- 实例级健康追踪:监控 CPU、内存和磁盘使用情况,防止资源耗尽。
- 磁盘与网络 I/O 可见性:识别存储和数据传输吞吐量中的瓶颈。
- ML 工作负载的 GPU 监控:追踪 GPU 利用率和温度,管理计算密集型应用。
- 主动告警:实时检测丢包、高系统负载或进程数异常等异常情况。
设置与配置
- 登录您的 Site24x7 账户,导航至云 > 阿里云 > 添加监视器。
- 在编辑阿里云监视器页面,从服务类型列表中选择 ECS。
- 添加完成后,前往云 > 阿里云 > ECS 查看仪表板和性能指标。
支持的指标
CPU 指标
| 指标名称 | 描述 | 单位 |
|---|---|---|
| CPU Utilization | 当前使用的 CPU 总容量百分比。 | 百分比 |
| CPU User Time | 用户进程使用的 CPU 百分比。 | 百分比 |
| CPU System Time | 系统/内核进程使用的 CPU 百分比。 | 百分比 |
| CPU Idle Time | CPU 空闲时间的百分比。 | 百分比 |
| CPU Wait Time | CPU 等待 I/O 的时间百分比。 | 百分比 |
| Total CPU Usage | 所有核心的 CPU 总使用率。 | 百分比 |
| Load Average (1 Minute) | 过去 1 分钟的平均系统负载。 | 负载 |
| Load Average (5 Minutes) | 过去 5 分钟的平均系统负载。 | 负载 |
| Load Average (15 Minutes) | 过去 15 分钟的平均系统负载。 | 负载 |
| Load Average Per Core (1 Minute) | 每个 CPU 核心的 1 分钟平均负载。 | 负载 |
内存指标
| 指标名称 | 描述 | 单位 |
|---|---|---|
| VM Memory Utilization | 内存使用率百分比。 | 百分比 |
| Memory Used Utilization | 已用内存占总内存的百分比。 | 百分比 |
| Memory Used Space | 已使用的内存量。 | MB |
| Memory Free Utilization | 可用空闲内存的百分比。 | 百分比 |
| Memory Free Space | 空闲内存量。 | MB |
| Total Memory Space | 实例上的总可用内存。 | MB |
磁盘指标
| 指标名称 | 描述 | 单位 |
|---|---|---|
| Disk Read Throughput (Bps) | 从磁盘读取数据的速率。 | 字节/秒 |
| Disk Write Throughput (Bps) | 向磁盘写入数据的速率。 | 字节/秒 |
| Disk Read IOPS | 每秒读取操作次数。 | 次/秒 |
| Disk Write IOPS | 每秒写入操作次数。 | 次/秒 |
| Disk Usage Utilization | 已使用的磁盘空间百分比。 | 百分比 |
| Disk Usage (Used) | 已使用的磁盘空间量。 | GB |
| Disk I/O Queue Size | 队列中等待的磁盘 I/O 请求数。 | 个 |
| Disk Read Throughput Utilization | 已使用的读取吞吐量百分比。 | 百分比 |
| Disk Write Throughput Utilization | 已使用的写入吞吐量百分比。 | 百分比 |
网络指标
| 指标名称 | 描述 | 单位 |
|---|---|---|
| Network In Rate | 入站网络流量的速率。 | 字节/秒 |
| Network Out Rate | 出站网络流量的速率。 | 字节/秒 |
| Network In Packets | 每秒入站数据包数。 | 包/秒 |
| Network Out Packets | 每秒出站数据包数。 | 包/秒 |
| Dropped Packets Percentage (In) | 入站数据包丢弃的百分比。 | 百分比 |
| Dropped Packets Percentage (Out) | 出站数据包丢弃的百分比。 | 百分比 |
系统与进程指标
| 指标名称 | 描述 | 单位 |
|---|---|---|
| Status Check | 整体系统健康检查结果。 | 文本 |
| Status Check (Instance) | 系统级健康检查的尝试次数。 | 次 |
| Process Count | 正在运行的进程数。 | 个 |
| VM Process Count | 虚拟机进程数。 | 个 |
| Concurrent Connections | 并发网络连接数。 | 个 |
GPU 指标
| 指标名称 | 描述 | 单位 |
|---|---|---|
| GPU Memory Used Utilization | GPU 内存使用率百分比。 | 百分比 |
| GPU Utilization | GPU 计算使用率百分比。 | 百分比 |
| Instance GPU Temperature | 当前 GPU 温度。 | 摄氏度 |
| Instance GPU Memory Used Utilization | 实例上 GPU 使用的内存百分比。 | 百分比 |
阈值配置
- 前往管理 > 配置文件 > 阈值与可用性。
- 为 ECS 创建或编辑阈值配置文件。
- 将配置文件关联到相应的监视器以触发告警。
IT 自动化
Site24x7 的 IT 自动化工具可帮助自动解决性能降级问题。当发生阈值违规时,告警引擎会持续检查已定义阈值的系统事件,并执行映射的自动化操作。
- 前往管理 > IT 自动化模板。
- 创建新的自动化规则。
- 将规则映射到监视器以实现主动解决。
配置规则
通过 Site24x7 的配置规则,您可以为多个监视器设置阈值配置文件、通知配置文件、标签和监视器组等参数,并自动化监控资源的配置设置。新增 ECS 监视器时,这些设置将自动应用。
