如何监控华为云弹性伸缩
Site24x7 对华为云弹性伸缩的健康指标进行实时监控,使运维团队能够评估伸缩操作的有效性。
这确保了新启动的实例在上线之前处于健康状态并已准备好处理流量。
使用场景
伸缩验证:跟踪 CPU 和实例数量,确认弹性伸缩按预期运作并降低负载;如果扩容后 CPU 仍然偏高,还可检测错误配置。
I/O 瓶颈:监控磁盘读/写请求,及早识别存储限制并防止延迟问题,通过调整实例类型或存储配置加以优化。
网络饱和:分析入站和出站带宽,检测接近限制的情况,防止丢包、超时和应用性能下降。
设置与配置
弹性伸缩资源在华为云集成期间会自动发现并纳入监控。要启用监控,请按照以下步骤操作:
- 导航至 Cloud > Huawei > Add Huawei Monitor,按照步骤添加华为云监视器。
- 在添加或编辑华为云监视器时,从 Service/Resource Types 下拉列表中选择 Auto Scaling,然后点击 Save(保存)。
- 导航至 Cloud > Huawei,选择已创建的华为监视器,然后点击 Auto Scaling。
支持的指标
常规
指标名称 | 描述 | 单位 |
| Instance Count(实例数量) | 弹性伸缩组中当前运行的实例数量。 | 数量 |
CPU 和内存
指标名称 | 描述 | 单位 |
| CPU Usage(CPU 使用率) | 伸缩组中所有实例的进程级详细 CPU 使用情况。 | 百分比 |
| CPU Utilization(CPU 利用率) | 用于触发伸缩策略的 Hypervisor 级 CPU 指标。 | 百分比 |
| Memory Used Percentage(内存使用百分比) | 伸缩组实例中已使用内存的百分比。 | 百分比 |
| Memory Utilization(内存利用率) | 用于基于内存的弹性伸缩策略的内存指标。 | 百分比 |
| 1 Minute Load Average(1 分钟平均负载) | 过去 1 分钟内的系统平均负载。 | 数量 |
| 5 Minute Load Average(5 分钟平均负载) | 过去 5 分钟内的系统平均负载。 | 数量 |
| 15 Minute Load Average(15 分钟平均负载) | 15 分钟内持续的系统负载趋势。 | 数量 |
磁盘
指标名称 | 描述 | 单位 |
| Disk Read Rate(磁盘读取速率) | 伸缩组中所有实例的磁盘数据读取速率。 | 字节/秒 |
| Disk Write Rate(磁盘写入速率) | 伸缩组中所有实例的磁盘数据写入速率。 | 字节/秒 |
| Disk Read Requests(磁盘读取请求数) | 所有伸缩组实例的读取 IOPS。 | 次/秒 |
| Disk Write Requests(磁盘写入请求数) | 所有伸缩组实例的写入 IOPS。 | 次/秒 |
网络
指标名称 | 描述 | 单位 |
| Inbound Bandwidth(入站带宽) | 伸缩组的聚合入站网络带宽。 | 字节/秒 |
| Outbound Bandwidth(出站带宽) | 伸缩组的聚合出站网络带宽。 | 字节/秒 |
GPU
指标名称 | 描述 | 单位 |
| GPU Usage(GPU 使用率) | GPU 实例中的 GPU 计算利用率。 | 百分比 |
| GPU Memory Usage(GPU 内存使用率) | GPU 实例中的 GPU 内存利用率。 | 百分比 |
阈值配置
您可以为所有弹性伸缩指标配置阈值和告警,以主动检测性能下降或连接问题。
- 前往 Admin > Configuration Profiles > Threshold and Availability。
- 为 Auto Scaling 创建或编辑您的阈值配置文件。
- 将配置文件分配给相应的监视器以触发告警。
IT 自动化
使用 Site24x7 的 IT 自动化解决弹性伸缩性能常见问题:
- 前往 Admin > IT Automation Templates,然后点击 Add Automation Templates(添加自动化模板)。
- 通过选择自动化类型(例如,服务器重启、清空队列)创建自动化规则。
- 将创建的规则映射到弹性伸缩,以便在告警期间自动执行。
配置规则
使用配置规则简化跨 Auto Scaling 实例的批量设置。在发现新监视器时,自动分配阈值配置文件、通知配置文件、标签和监视器组。
