帮助手册

如何在华为云中监控裸金属服务器(BMS)

Site24x7 持续监控裸金属服务器(BMS)的各项指标,为您的团队提供对 CPU 利用率、内存消耗、网络吞吐量、TCP 连接状态、GPU 和 NPU 健康状况以及各裸金属实例进程活动的实时可见性。

在工作负载受影响之前,提前发现资源瓶颈、硬件老化和网络异常,确保您的裸金属基础设施始终保持最佳性能。

使用场景

CPU 分析:结合负载平均值监控 CPU 使用情况细分(如用户态、内核态、I/O 等待),识别资源瓶颈,避免不必要的扩容。

网络健康:跟踪错误率和丢包率,及早发现网卡问题,防止因配置错误或网络故障导致的连接问题。

硬件监控:观测 GPU/NPU 健康状态、温度和错误,提前发现硬件老化并防止 AI 或计算工作负载中的故障。

设置与配置

BMS 资源在华为云集成期间会被自动发现并纳入监控。如需启用监控,请按照以下步骤操作:

  • 导航至 Cloud > Huawei > 添加 Huawei 监视器,按步骤添加华为云监视器
  • 在添加或编辑华为云监视器时,从服务/资源类型下拉菜单中选择 BMS,然后点击保存
  • 导航至 Cloud > Huawei,选择已创建的 Huawei 监视器,然后点击裸金属服务器

支持的指标

CPU

指标名称

描述

单位

CPU 使用率BMS 上所有进程当前消耗的 CPU 容量总百分比。百分比
CPU 空闲率处理器空闲(无待处理任务)时所占 CPU 时间的百分比。百分比
用户空间 CPU 使用率执行用户空间应用进程所占 CPU 时间的百分比。百分比
内核空间 CPU 使用率代表进程执行内核空间操作所占 CPU 时间的百分比。百分比
其他进程 CPU 使用率未归类为用户态、内核态或系统态的进程所消耗的 CPU 时间百分比。百分比
Nice 进程 CPU 使用率以降低调度优先级(nice > 0)运行的进程所消耗的 CPU 时间百分比。百分比
I/O 等待 CPU 使用率等待磁盘 I/O 操作完成所消耗的 CPU 时间百分比。百分比
CPU 硬中断时间处理硬件中断请求所消耗的 CPU 时间百分比。百分比
CPU 软中断时间处理软件中断请求所消耗的 CPU 时间百分比。百分比
1 分钟平均负载过去 1 分钟内处于不可中断状态的进程平均数量。
5 分钟平均负载过去 5 分钟内处于不可中断状态的进程平均数量。
15 分钟平均负载过去 15 分钟内处于不可中断状态的进程平均数量。

内存

指标名称

描述

单位

可用内存当前可供新进程分配的物理内存量。GB
内存使用率操作系统和进程当前使用的物理内存总量占比。百分比
空闲内存当前未分配给任何进程或缓存的物理内存量。GB
内存缓冲区分配给块设备操作的内核 I/O 缓冲区的物理内存量。GB
内存缓存用作最近访问文件的页面缓存的物理内存量。GB
打开文件总数服务器上所有进程当前打开的文件描述符总数。

网络

指标名称

描述

单位

入站带宽服务器网络接口每秒接收的数据速率。bit/秒
出站带宽服务器网络接口每秒发送的数据速率。bit/秒
数据包接收速率网络接口每秒接收的数据包数量。个/秒
数据包发送速率网络接口每秒发送的数据包数量。个/秒
接收错误率网络接口接收数据包中检测到的错误速率。百分比
发送错误率网络接口发送数据包中检测到的错误速率。百分比
接收丢包率网络接口丢弃入站数据包的速率。百分比
发送丢包率网络接口丢弃出站数据包的速率。百分比
NTP 偏差服务器系统时钟与 NTP 参考时间源之间的毫秒差值。毫秒

TCP 连接

指标名称

描述

单位

TCP 连接总数内核当前跟踪的所有状态的 TCP 连接总数。
TCP ESTABLISHED处于 ESTABLISHED 状态、正在主动交换数据的 TCP 连接数量。
TCP SYN_SENT处于 SYN_SENT 状态、等待远端 SYN-ACK 的 TCP 连接数量。
TCP SYN_RECV处于 SYN_RECV 状态(已收到 SYN 并发送了 SYN-ACK)的 TCP 连接数量。
TCP FIN_WAIT1处于 FIN_WAIT1 状态(已发送 FIN 并等待确认)的 TCP 连接数量。
TCP FIN_WAIT2处于 FIN_WAIT2 状态、等待远端发送 FIN 的 TCP 连接数量。
TCP TIME_WAIT处于 TIME_WAIT 状态、等待超时期满的 TCP 连接数量。
TCP CLOSE处于 CLOSE 状态的 TCP 连接数量。
TCP CLOSE_WAIT处于 CLOSE_WAIT 状态、等待本地应用程序关闭套接字的 TCP 连接数量。
TCP LAST_ACK处于 LAST_ACK 状态、发送 FIN 后等待最终 ACK 的 TCP 连接数量。
TCP LISTEN处于 LISTEN 状态、接受传入连接请求的套接字数量。
TCP CLOSING处于 CLOSING 状态(双方同时发送 FIN)的 TCP 连接数量。
TCP 重传率因丢包或超时而重传 TCP 数据段的速率。百分比

GPU

指标名称

描述

单位

GPU 健康状态GPU 设备的运行健康状态,指示显卡是否正常运行。
GPU 使用率活跃工作负载当前使用的 GPU 计算容量百分比。百分比
GPU 内存使用率活跃工作负载当前消耗的 GPU 总内存百分比。百分比
GPU 编码器使用率当前正在使用的 GPU 硬件视频编码器百分比。百分比
GPU 解码器使用率当前正在使用的 GPU 硬件视频解码器百分比。百分比
GPU 空闲内存当前未分配给任何工作负载的 GPU 内存量。MB
GPU 已用内存当前分配给活跃工作负载的 GPU 内存量。MB
GPU 温度GPU 当前运行温度。摄氏度
GPU 功耗GPU 当前功耗。瓦特
GPU 图形时钟频率GPU 图形引擎当前运行频率。MHz
GPU 内存时钟频率GPU 内存接口当前运行频率。MHz
GPU SM 时钟频率GPU 流式多处理器阵列当前运行频率。MHz
GPU 视频时钟频率GPU 视频编解码引擎当前运行频率。MHz
GPU 性能状态GPU 当前性能状态级别,值越低表示性能模式越高。
GPU 易失性可纠正 ECC 错误当前会话中检测并纠正的单位 ECC 内存错误数量。
GPU 易失性不可纠正 ECC 错误当前会话中检测到的无法纠正的多位 ECC 内存错误数量。
GPU 累计可纠正 ECC 错误自上次驱动程序重置以来可纠正的单位 ECC 内存错误累计数量。
GPU 累计不可纠正 ECC 错误自上次驱动程序重置以来不可纠正的多位 ECC 内存错误累计数量。
GPU 退役页面(单位错误)因持续单位 ECC 错误而退役的 GPU 内存页面数量。
GPU 退役页面(双位错误)因不可纠正的双位 ECC 错误而退役的 GPU 内存页面数量。
GPU PCI 接收吞吐量GPU 通过 PCIe 总线每秒接收的数据速率。MB/秒
GPU PCI 发送吞吐量GPU 通过 PCIe 总线每秒发送的数据速率。MB/秒

NPU

指标名称

描述

单位

NPU 设备健康状态神经网络处理单元(NPU)设备的运行健康状态。
NPU AI Core 使用率当前正在使用的 NPU AI Core 计算容量百分比。百分比
NPU 内存使用率活跃工作负载当前消耗的 NPU 总内存百分比。百分比
NPU AI CPU 使用率当前正在使用的 NPU 嵌入式 AI CPU 百分比。百分比
NPU 控制 CPU 使用率当前用于管理操作的 NPU 控制 CPU 百分比。百分比
NPU 内存带宽使用率当前消耗的可用 NPU 内存带宽百分比。百分比
NPU 内存频率NPU 内存子系统当前运行频率。MHz
NPU AI Core 频率NPU AI Core 阵列当前运行频率。MHz
NPU 已用内存当前分配给活跃推理或训练工作负载的 NPU 内存量。MB
NPU 单位错误数NPU 内存中检测到的单位 ECC 错误数量。
NPU 双位错误数NPU 内存中检测到的双位 ECC 错误数量(不可纠正)。
NPU 功耗NPU 设备当前功耗。瓦特
NPU 温度NPU 设备当前运行温度。摄氏度

进程

指标名称

描述

单位

进程总数BMS 上当前处于所有状态的进程总数。
运行中的进程数当前处于运行状态并正在消耗 CPU 的进程数量。
空闲进程数当前处于空闲状态、未消耗 CPU 且未等待 I/O 的进程数量。
僵尸进程数已终止但其退出状态尚未被父进程收集的进程数量。
阻塞进程数当前因等待资源(如磁盘 I/O 或锁)而阻塞的进程数量。
休眠进程数处于休眠状态、等待事件或定时器后恢复执行的进程数量。

阈值配置

您可以为所有 BMS 指标配置阈值和告警,以主动检测性能下降或连接问题。

  1. 前往 Admin > 配置文件 > 阈值和可用性
  2. BMS 创建或编辑阈值配置文件
  3. 将配置文件分配给相应的监视器以触发告警。

IT 自动化

使用 Site24x7 的 IT 自动化解决常见的 BMS 性能问题:

  1. 前往 Admin > IT 自动化模板,然后点击添加自动化模板
  2. 通过选择自动化类型(如服务器重启、清除队列)来创建自动化规则。
  3. 将已创建的规则映射到 BMS,以便在告警期间自动执行。

配置规则

使用配置规则简化跨 BMS 实例的批量设置。在发现新监视器时自动分配阈值配置文件通知配置文件标签监视器组

相关文章

本文档对您有帮助吗?

您愿意帮助我们改进文档吗?请告诉我们哪些方面可以做得更好。


很抱歉本文档未能让您满意。我们希望了解可以从哪些方面改进您的体验。


感谢您抽出时间分享反馈。我们将利用您的反馈来改进在线帮助资源。

短链接已复制!