帮助手册

阿里云弹性计算服务(ECS)监控集成

Site24x7 为阿里云环境中的弹性计算服务(ECS)实例提供开箱即用的全面监控。通过实时指标监控系统级性能,包括 CPU 使用率、内存消耗、磁盘 I/O、网络活动、GPU 利用率和进程行为。将阿里云账户与 Site24x7 集成后,所有关联的 ECS 实例将被自动发现并持续监控。

使用场景

  • 实例级健康追踪:监控 CPU、内存和磁盘使用情况,防止资源耗尽。
  • 磁盘与网络 I/O 可见性:识别存储和数据传输吞吐量中的瓶颈。
  • ML 工作负载的 GPU 监控:追踪 GPU 利用率和温度,管理计算密集型应用。
  • 主动告警:实时检测丢包、高系统负载或进程数异常等异常情况。

设置与配置

  • 登录您的 Site24x7 账户,导航至云 > 阿里云 > 添加监视器
  • 编辑阿里云监视器页面,从服务类型列表中选择 ECS
  • 添加完成后,前往云 > 阿里云 > ECS 查看仪表板和性能指标。

支持的指标

CPU 指标

指标名称描述单位
CPU Utilization 当前使用的 CPU 总容量百分比。 百分比
CPU User Time 用户进程使用的 CPU 百分比。 百分比
CPU System Time 系统/内核进程使用的 CPU 百分比。 百分比
CPU Idle Time CPU 空闲时间的百分比。 百分比
CPU Wait Time CPU 等待 I/O 的时间百分比。 百分比
Total CPU Usage 所有核心的 CPU 总使用率。 百分比
Load Average (1 Minute) 过去 1 分钟的平均系统负载。 负载
Load Average (5 Minutes) 过去 5 分钟的平均系统负载。 负载
Load Average (15 Minutes) 过去 15 分钟的平均系统负载。 负载
Load Average Per Core (1 Minute) 每个 CPU 核心的 1 分钟平均负载。 负载

内存指标

指标名称描述单位
VM Memory Utilization 内存使用率百分比。 百分比
Memory Used Utilization 已用内存占总内存的百分比。 百分比
Memory Used Space 已使用的内存量。 MB
Memory Free Utilization 可用空闲内存的百分比。 百分比
Memory Free Space 空闲内存量。 MB
Total Memory Space 实例上的总可用内存。 MB

磁盘指标

指标名称描述单位
Disk Read Throughput (Bps) 从磁盘读取数据的速率。 字节/秒
Disk Write Throughput (Bps) 向磁盘写入数据的速率。 字节/秒
Disk Read IOPS 每秒读取操作次数。 次/秒
Disk Write IOPS 每秒写入操作次数。 次/秒
Disk Usage Utilization 已使用的磁盘空间百分比。 百分比
Disk Usage (Used) 已使用的磁盘空间量。 GB
Disk I/O Queue Size 队列中等待的磁盘 I/O 请求数。
Disk Read Throughput Utilization 已使用的读取吞吐量百分比。 百分比
Disk Write Throughput Utilization 已使用的写入吞吐量百分比。 百分比

网络指标

指标名称描述单位
Network In Rate 入站网络流量的速率。 字节/秒
Network Out Rate 出站网络流量的速率。 字节/秒
Network In Packets 每秒入站数据包数。 包/秒
Network Out Packets 每秒出站数据包数。 包/秒
Dropped Packets Percentage (In) 入站数据包丢弃的百分比。 百分比
Dropped Packets Percentage (Out) 出站数据包丢弃的百分比。 百分比

系统与进程指标

指标名称描述单位
Status Check 整体系统健康检查结果。 文本
Status Check (Instance) 系统级健康检查的尝试次数。
Process Count 正在运行的进程数。
VM Process Count 虚拟机进程数。
Concurrent Connections 并发网络连接数。

GPU 指标

指标名称描述单位
GPU Memory Used Utilization GPU 内存使用率百分比。 百分比
GPU Utilization GPU 计算使用率百分比。 百分比
Instance GPU Temperature 当前 GPU 温度。 摄氏度
Instance GPU Memory Used Utilization 实例上 GPU 使用的内存百分比。 百分比

阈值配置

  1. 前往管理 > 配置文件 > 阈值与可用性
  2. ECS 创建或编辑阈值配置文件。
  3. 将配置文件关联到相应的监视器以触发告警。

IT 自动化

Site24x7 的 IT 自动化工具可帮助自动解决性能降级问题。当发生阈值违规时,告警引擎会持续检查已定义阈值的系统事件,并执行映射的自动化操作。

  1. 前往管理 > IT 自动化模板
  2. 创建新的自动化规则。
  3. 将规则映射到监视器以实现主动解决。

如何为监视器配置 IT 自动化

配置规则

通过 Site24x7 的配置规则,您可以为多个监视器设置阈值配置文件、通知配置文件、标签和监视器组等参数,并自动化监控资源的配置设置。新增 ECS 监视器时,这些设置将自动应用。

如何添加配置规则

相关链接

本文档对您有帮助吗?

您愿意帮助我们改进文档吗?请告诉我们哪些方面可以做得更好。


很抱歉本文档未能让您满意。我们希望了解可以从哪些方面改进您的体验。


感谢您抽出时间分享反馈。我们将利用您的反馈来改进在线帮助资源。

短链接已复制!