如何在华为云中监控裸金属服务器(BMS)
Site24x7 持续监控裸金属服务器(BMS)的各项指标,为您的团队提供对 CPU 利用率、内存消耗、网络吞吐量、TCP 连接状态、GPU 和 NPU 健康状况以及各裸金属实例进程活动的实时可见性。
在工作负载受影响之前,提前发现资源瓶颈、硬件老化和网络异常,确保您的裸金属基础设施始终保持最佳性能。
使用场景
CPU 分析:结合负载平均值监控 CPU 使用情况细分(如用户态、内核态、I/O 等待),识别资源瓶颈,避免不必要的扩容。
网络健康:跟踪错误率和丢包率,及早发现网卡问题,防止因配置错误或网络故障导致的连接问题。
硬件监控:观测 GPU/NPU 健康状态、温度和错误,提前发现硬件老化并防止 AI 或计算工作负载中的故障。
设置与配置
BMS 资源在华为云集成期间会被自动发现并纳入监控。如需启用监控,请按照以下步骤操作:
- 导航至 Cloud > Huawei > 添加 Huawei 监视器,按步骤添加华为云监视器。
- 在添加或编辑华为云监视器时,从服务/资源类型下拉菜单中选择 BMS,然后点击保存。
- 导航至 Cloud > Huawei,选择已创建的 Huawei 监视器,然后点击裸金属服务器。
支持的指标
CPU
指标名称 | 描述 | 单位 |
| CPU 使用率 | BMS 上所有进程当前消耗的 CPU 容量总百分比。 | 百分比 |
| CPU 空闲率 | 处理器空闲(无待处理任务)时所占 CPU 时间的百分比。 | 百分比 |
| 用户空间 CPU 使用率 | 执行用户空间应用进程所占 CPU 时间的百分比。 | 百分比 |
| 内核空间 CPU 使用率 | 代表进程执行内核空间操作所占 CPU 时间的百分比。 | 百分比 |
| 其他进程 CPU 使用率 | 未归类为用户态、内核态或系统态的进程所消耗的 CPU 时间百分比。 | 百分比 |
| Nice 进程 CPU 使用率 | 以降低调度优先级(nice > 0)运行的进程所消耗的 CPU 时间百分比。 | 百分比 |
| I/O 等待 CPU 使用率 | 等待磁盘 I/O 操作完成所消耗的 CPU 时间百分比。 | 百分比 |
| CPU 硬中断时间 | 处理硬件中断请求所消耗的 CPU 时间百分比。 | 百分比 |
| CPU 软中断时间 | 处理软件中断请求所消耗的 CPU 时间百分比。 | 百分比 |
| 1 分钟平均负载 | 过去 1 分钟内处于不可中断状态的进程平均数量。 | 个 |
| 5 分钟平均负载 | 过去 5 分钟内处于不可中断状态的进程平均数量。 | 个 |
| 15 分钟平均负载 | 过去 15 分钟内处于不可中断状态的进程平均数量。 | 个 |
内存
指标名称 | 描述 | 单位 |
| 可用内存 | 当前可供新进程分配的物理内存量。 | GB |
| 内存使用率 | 操作系统和进程当前使用的物理内存总量占比。 | 百分比 |
| 空闲内存 | 当前未分配给任何进程或缓存的物理内存量。 | GB |
| 内存缓冲区 | 分配给块设备操作的内核 I/O 缓冲区的物理内存量。 | GB |
| 内存缓存 | 用作最近访问文件的页面缓存的物理内存量。 | GB |
| 打开文件总数 | 服务器上所有进程当前打开的文件描述符总数。 | 个 |
网络
指标名称 | 描述 | 单位 |
| 入站带宽 | 服务器网络接口每秒接收的数据速率。 | bit/秒 |
| 出站带宽 | 服务器网络接口每秒发送的数据速率。 | bit/秒 |
| 数据包接收速率 | 网络接口每秒接收的数据包数量。 | 个/秒 |
| 数据包发送速率 | 网络接口每秒发送的数据包数量。 | 个/秒 |
| 接收错误率 | 网络接口接收数据包中检测到的错误速率。 | 百分比 |
| 发送错误率 | 网络接口发送数据包中检测到的错误速率。 | 百分比 |
| 接收丢包率 | 网络接口丢弃入站数据包的速率。 | 百分比 |
| 发送丢包率 | 网络接口丢弃出站数据包的速率。 | 百分比 |
| NTP 偏差 | 服务器系统时钟与 NTP 参考时间源之间的毫秒差值。 | 毫秒 |
TCP 连接
指标名称 | 描述 | 单位 |
| TCP 连接总数 | 内核当前跟踪的所有状态的 TCP 连接总数。 | 个 |
| TCP ESTABLISHED | 处于 ESTABLISHED 状态、正在主动交换数据的 TCP 连接数量。 | 个 |
| TCP SYN_SENT | 处于 SYN_SENT 状态、等待远端 SYN-ACK 的 TCP 连接数量。 | 个 |
| TCP SYN_RECV | 处于 SYN_RECV 状态(已收到 SYN 并发送了 SYN-ACK)的 TCP 连接数量。 | 个 |
| TCP FIN_WAIT1 | 处于 FIN_WAIT1 状态(已发送 FIN 并等待确认)的 TCP 连接数量。 | 个 |
| TCP FIN_WAIT2 | 处于 FIN_WAIT2 状态、等待远端发送 FIN 的 TCP 连接数量。 | 个 |
| TCP TIME_WAIT | 处于 TIME_WAIT 状态、等待超时期满的 TCP 连接数量。 | 个 |
| TCP CLOSE | 处于 CLOSE 状态的 TCP 连接数量。 | 个 |
| TCP CLOSE_WAIT | 处于 CLOSE_WAIT 状态、等待本地应用程序关闭套接字的 TCP 连接数量。 | 个 |
| TCP LAST_ACK | 处于 LAST_ACK 状态、发送 FIN 后等待最终 ACK 的 TCP 连接数量。 | 个 |
| TCP LISTEN | 处于 LISTEN 状态、接受传入连接请求的套接字数量。 | 个 |
| TCP CLOSING | 处于 CLOSING 状态(双方同时发送 FIN)的 TCP 连接数量。 | 个 |
| TCP 重传率 | 因丢包或超时而重传 TCP 数据段的速率。 | 百分比 |
GPU
指标名称 | 描述 | 单位 |
| GPU 健康状态 | GPU 设备的运行健康状态,指示显卡是否正常运行。 | 个 |
| GPU 使用率 | 活跃工作负载当前使用的 GPU 计算容量百分比。 | 百分比 |
| GPU 内存使用率 | 活跃工作负载当前消耗的 GPU 总内存百分比。 | 百分比 |
| GPU 编码器使用率 | 当前正在使用的 GPU 硬件视频编码器百分比。 | 百分比 |
| GPU 解码器使用率 | 当前正在使用的 GPU 硬件视频解码器百分比。 | 百分比 |
| GPU 空闲内存 | 当前未分配给任何工作负载的 GPU 内存量。 | MB |
| GPU 已用内存 | 当前分配给活跃工作负载的 GPU 内存量。 | MB |
| GPU 温度 | GPU 当前运行温度。 | 摄氏度 |
| GPU 功耗 | GPU 当前功耗。 | 瓦特 |
| GPU 图形时钟频率 | GPU 图形引擎当前运行频率。 | MHz |
| GPU 内存时钟频率 | GPU 内存接口当前运行频率。 | MHz |
| GPU SM 时钟频率 | GPU 流式多处理器阵列当前运行频率。 | MHz |
| GPU 视频时钟频率 | GPU 视频编解码引擎当前运行频率。 | MHz |
| GPU 性能状态 | GPU 当前性能状态级别,值越低表示性能模式越高。 | 个 |
| GPU 易失性可纠正 ECC 错误 | 当前会话中检测并纠正的单位 ECC 内存错误数量。 | 个 |
| GPU 易失性不可纠正 ECC 错误 | 当前会话中检测到的无法纠正的多位 ECC 内存错误数量。 | 个 |
| GPU 累计可纠正 ECC 错误 | 自上次驱动程序重置以来可纠正的单位 ECC 内存错误累计数量。 | 个 |
| GPU 累计不可纠正 ECC 错误 | 自上次驱动程序重置以来不可纠正的多位 ECC 内存错误累计数量。 | 个 |
| GPU 退役页面(单位错误) | 因持续单位 ECC 错误而退役的 GPU 内存页面数量。 | 个 |
| GPU 退役页面(双位错误) | 因不可纠正的双位 ECC 错误而退役的 GPU 内存页面数量。 | 个 |
| GPU PCI 接收吞吐量 | GPU 通过 PCIe 总线每秒接收的数据速率。 | MB/秒 |
| GPU PCI 发送吞吐量 | GPU 通过 PCIe 总线每秒发送的数据速率。 | MB/秒 |
NPU
指标名称 | 描述 | 单位 |
| NPU 设备健康状态 | 神经网络处理单元(NPU)设备的运行健康状态。 | 个 |
| NPU AI Core 使用率 | 当前正在使用的 NPU AI Core 计算容量百分比。 | 百分比 |
| NPU 内存使用率 | 活跃工作负载当前消耗的 NPU 总内存百分比。 | 百分比 |
| NPU AI CPU 使用率 | 当前正在使用的 NPU 嵌入式 AI CPU 百分比。 | 百分比 |
| NPU 控制 CPU 使用率 | 当前用于管理操作的 NPU 控制 CPU 百分比。 | 百分比 |
| NPU 内存带宽使用率 | 当前消耗的可用 NPU 内存带宽百分比。 | 百分比 |
| NPU 内存频率 | NPU 内存子系统当前运行频率。 | MHz |
| NPU AI Core 频率 | NPU AI Core 阵列当前运行频率。 | MHz |
| NPU 已用内存 | 当前分配给活跃推理或训练工作负载的 NPU 内存量。 | MB |
| NPU 单位错误数 | NPU 内存中检测到的单位 ECC 错误数量。 | 个 |
| NPU 双位错误数 | NPU 内存中检测到的双位 ECC 错误数量(不可纠正)。 | 个 |
| NPU 功耗 | NPU 设备当前功耗。 | 瓦特 |
| NPU 温度 | NPU 设备当前运行温度。 | 摄氏度 |
进程
指标名称 | 描述 | 单位 |
| 进程总数 | BMS 上当前处于所有状态的进程总数。 | 个 |
| 运行中的进程数 | 当前处于运行状态并正在消耗 CPU 的进程数量。 | 个 |
| 空闲进程数 | 当前处于空闲状态、未消耗 CPU 且未等待 I/O 的进程数量。 | 个 |
| 僵尸进程数 | 已终止但其退出状态尚未被父进程收集的进程数量。 | 个 |
| 阻塞进程数 | 当前因等待资源(如磁盘 I/O 或锁)而阻塞的进程数量。 | 个 |
| 休眠进程数 | 处于休眠状态、等待事件或定时器后恢复执行的进程数量。 | 个 |
阈值配置
您可以为所有 BMS 指标配置阈值和告警,以主动检测性能下降或连接问题。
- 前往 Admin > 配置文件 > 阈值和可用性。
- 为 BMS 创建或编辑阈值配置文件。
- 将配置文件分配给相应的监视器以触发告警。
IT 自动化
使用 Site24x7 的 IT 自动化解决常见的 BMS 性能问题:
- 前往 Admin > IT 自动化模板,然后点击添加自动化模板。
- 通过选择自动化类型(如服务器重启、清除队列)来创建自动化规则。
- 将已创建的规则映射到 BMS,以便在告警期间自动执行。
配置规则
使用配置规则简化跨 BMS 实例的批量设置。在发现新监视器时自动分配阈值配置文件、通知配置文件、标签和监视器组。
