阿里云弹性高性能计算 (E-HPC) 监控集成

Site24x7 为阿里云弹性高性能计算（E-HPC）集群提供深入监控，让您全面了解计算资源利用率、作业活动和资源分布情况。通过跟踪 CPU 使用率、内存消耗、节点性能、作业执行状态和队列级利用率等指标，Site24x7 帮助管理员确保高效的调度、资源分配和系统稳定性。一旦您的阿里云账户完成集成，所有 E-HPC 集群将被自动发现并纳入监控。

使用场景

集群健康跟踪：监控集群中 CPU、内存和节点的总量与使用情况。
作业监控：识别运行中、排队中和失败的作业，以优化调度。
用户和项目洞察：在用户和项目级别跟踪 CPU 和内存消耗。
队列优化：分析队列级别的性能，实现高效的作业分配。
主动告警：为高利用率或作业失败配置自动化和告警。

设置与配置

登录您的 Site24x7 账户，导航至 Cloud > Alibaba Cloud > Add Monitor。
在编辑阿里云监视器页面中，从服务类型列表中选择弹性高性能计算 (E-HPC)。
添加完成后，前往 Cloud > Alibaba > E-HPC 查看仪表板和性能指标。

支持的指标

集群健康

指标名称	描述	单位
Cluster Total CPUs	E-HPC 集群中可用的 CPU 总数。	Count
Cluster Total Memory	集群中所有节点的可用内存总量。	Bytes
Cluster Total Nodes	E-HPC 集群中的节点总数。	Count
Cluster Used CPUs	集群中当前正在使用的 CPU 数量。	Count
Cluster Used Core Time	集群中所有正在运行的作业消耗的核心时间总量。	Seconds
Used Memory	集群中所有节点当前使用的内存总量。	Bytes

节点性能

指标名称	描述	单位
Node CPU Usage by Cluster	集群中每个节点的 CPU 利用率百分比。	Percentage
Node Memory Usage by Cluster	集群中每个节点的内存利用率百分比。	Percentage
Node Used CPU by Cluster	集群中每个节点使用的 CPU 数量。	Count
Node Used Memory by Cluster	集群中每个节点使用的内存量。	Bytes
Node Load 1m by Cluster	每个节点过去一分钟的系统平均负载。	Count
Node Network In Rate by Cluster	集群中每个节点的入站网络流量速率。	Bytes/second

作业执行

指标名称	描述	单位
Running Jobs	集群中当前正在运行的作业数量。	Count
Queued Jobs	在队列中等待调度的作业数量。	Count
Finished Jobs	已成功完成的作业总数。	Count
Failed Job Number by Cluster	集群中失败的作业数量。	Count
Suspended Job Number by Cluster	集群中已暂停的作业数量。	Count
Job Run Duration by Cluster	集群中当前正在执行的作业的平均运行时长。	Seconds
Job Wait Duration by Cluster	作业在执行前的平均等待时间。	Seconds
Running Job Number by Cluster	当前正在运行的活跃作业总数。	Count
Pending Job Number by Cluster	等待资源分配的作业数量。	Count
Created Jobs by Cluster	集群中已创建的作业总数。	Count

用户/项目级别

指标名称	描述	单位
Job Run Duration by User	某用户运行的作业的平均时长。	Seconds
Job Used CPU by User	某用户运行的作业所使用的 CPU 总数。	Count
Job Used Memory by User	某用户作业所使用的内存总量。	Bytes
Job CPU Usage by User	某用户执行的作业的 CPU 使用率百分比。	Percentage
Job Memory Usage by User	某用户执行的作业的内存使用率百分比。	Percentage
Job Run Duration by Project	某项目关联的作业的平均运行时长。	Seconds
Job Used CPU by Project	某项目下所有作业使用的 CPU 总数。	Count
Job Used Memory by Project	某项目下所有作业使用的内存总量。	Bytes

队列

指标名称	描述	单位
Job Number by Queue	分配给每个队列的作业总数。	Count
Queued Jobs by Queue	每个队列中等待的作业数量。	Count
Running Job Number by Queue	每个队列中当前正在运行的作业数量。	Count
Pending Job Number by Queue	每个队列中等待处理的作业数量。	Count
Queue Used CPUs	每个队列中的作业当前使用的 CPU 数量。	Count
Queue Total CPUs	分配给每个队列的 CPU 总数。	Count
Queue Total Memory	分配给每个队列的内存总量。	Bytes

作业资源请求与分配

指标名称	描述	单位
Job Required CPU by User	某用户作业请求的 CPU 总数。	Count
Job Required Memory by User	某用户作业请求的内存总量。	Bytes
Running Job Required CPU by Cluster	集群中正在运行的作业请求的 CPU 总数。	Count
Running Job Required Memory by Cluster	集群中正在运行的作业请求的内存总量。	Bytes
Pending Job Required CPU by Cluster	集群中待处理作业请求的 CPU 总数。	Count
Pending Job Required Memory by Cluster	集群中待处理作业请求的内存总量。	Bytes
Job Required CPU by Queue	每个队列中的作业请求的 CPU 总数。	Count

阈值配置

前往 Admin > Configuration Profiles > Threshold and Availability。
为 E-HPC 创建或编辑阈值配置文件。
将配置文件分配给相应的监视器以触发告警。

IT 自动化

Site24x7 的 IT 自动化工具有助于自动解决性能下降问题。当发生违规时，告警引擎会持续检查已定义阈值的系统事件，并执行相关联的自动化操作。

前往 Admin > IT Automation Templates。
创建新的自动化规则。
将规则映射到监视器，以实现主动处理。

如何为监视器配置 IT 自动化

配置规则

借助 Site24x7 的配置规则，您可以为多个监视器设置阈值配置文件、通知配置文件、标签和监视器组等参数，并自动化监控资源的配置设置。当新增 E-HPC 监视器时，可自动应用这些设置。

如何添加配置规则