阿里云弹性高性能计算 (E-HPC) 监控集成
Site24x7 为阿里云弹性高性能计算(E-HPC)集群提供深入监控,让您全面了解计算资源利用率、作业活动和资源分布情况。通过跟踪 CPU 使用率、内存消耗、节点性能、作业执行状态和队列级利用率等指标,Site24x7 帮助管理员确保高效的调度、资源分配和系统稳定性。一旦您的阿里云账户完成集成,所有 E-HPC 集群将被自动发现并纳入监控。
使用场景
- 集群健康跟踪:监控集群中 CPU、内存和节点的总量与使用情况。
- 作业监控:识别运行中、排队中和失败的作业,以优化调度。
- 用户和项目洞察:在用户和项目级别跟踪 CPU 和内存消耗。
- 队列优化:分析队列级别的性能,实现高效的作业分配。
- 主动告警:为高利用率或作业失败配置自动化和告警。
设置与配置
- 登录您的 Site24x7 账户,导航至 Cloud > Alibaba Cloud > Add Monitor。
- 在编辑阿里云监视器页面中,从服务类型列表中选择弹性高性能计算 (E-HPC)。
- 添加完成后,前往 Cloud > Alibaba > E-HPC 查看仪表板和性能指标。
支持的指标
集群健康
| 指标名称 | 描述 | 单位 |
|---|---|---|
| Cluster Total CPUs | E-HPC 集群中可用的 CPU 总数。 | Count |
| Cluster Total Memory | 集群中所有节点的可用内存总量。 | Bytes |
| Cluster Total Nodes | E-HPC 集群中的节点总数。 | Count |
| Cluster Used CPUs | 集群中当前正在使用的 CPU 数量。 | Count |
| Cluster Used Core Time | 集群中所有正在运行的作业消耗的核心时间总量。 | Seconds |
| Used Memory | 集群中所有节点当前使用的内存总量。 | Bytes |
节点性能
| 指标名称 | 描述 | 单位 |
|---|---|---|
| Node CPU Usage by Cluster | 集群中每个节点的 CPU 利用率百分比。 | Percentage |
| Node Memory Usage by Cluster | 集群中每个节点的内存利用率百分比。 | Percentage |
| Node Used CPU by Cluster | 集群中每个节点使用的 CPU 数量。 | Count |
| Node Used Memory by Cluster | 集群中每个节点使用的内存量。 | Bytes |
| Node Load 1m by Cluster | 每个节点过去一分钟的系统平均负载。 | Count |
| Node Network In Rate by Cluster | 集群中每个节点的入站网络流量速率。 | Bytes/second |
作业执行
| 指标名称 | 描述 | 单位 |
|---|---|---|
| Running Jobs | 集群中当前正在运行的作业数量。 | Count |
| Queued Jobs | 在队列中等待调度的作业数量。 | Count |
| Finished Jobs | 已成功完成的作业总数。 | Count |
| Failed Job Number by Cluster | 集群中失败的作业数量。 | Count |
| Suspended Job Number by Cluster | 集群中已暂停的作业数量。 | Count |
| Job Run Duration by Cluster | 集群中当前正在执行的作业的平均运行时长。 | Seconds |
| Job Wait Duration by Cluster | 作业在执行前的平均等待时间。 | Seconds |
| Running Job Number by Cluster | 当前正在运行的活跃作业总数。 | Count |
| Pending Job Number by Cluster | 等待资源分配的作业数量。 | Count |
| Created Jobs by Cluster | 集群中已创建的作业总数。 | Count |
用户/项目级别
| 指标名称 | 描述 | 单位 |
|---|---|---|
| Job Run Duration by User | 某用户运行的作业的平均时长。 | Seconds |
| Job Used CPU by User | 某用户运行的作业所使用的 CPU 总数。 | Count |
| Job Used Memory by User | 某用户作业所使用的内存总量。 | Bytes |
| Job CPU Usage by User | 某用户执行的作业的 CPU 使用率百分比。 | Percentage |
| Job Memory Usage by User | 某用户执行的作业的内存使用率百分比。 | Percentage |
| Job Run Duration by Project | 某项目关联的作业的平均运行时长。 | Seconds |
| Job Used CPU by Project | 某项目下所有作业使用的 CPU 总数。 | Count |
| Job Used Memory by Project | 某项目下所有作业使用的内存总量。 | Bytes |
队列
| 指标名称 | 描述 | 单位 |
|---|---|---|
| Job Number by Queue | 分配给每个队列的作业总数。 | Count |
| Queued Jobs by Queue | 每个队列中等待的作业数量。 | Count |
| Running Job Number by Queue | 每个队列中当前正在运行的作业数量。 | Count |
| Pending Job Number by Queue | 每个队列中等待处理的作业数量。 | Count |
| Queue Used CPUs | 每个队列中的作业当前使用的 CPU 数量。 | Count |
| Queue Total CPUs | 分配给每个队列的 CPU 总数。 | Count |
| Queue Total Memory | 分配给每个队列的内存总量。 | Bytes |
作业资源请求与分配
| 指标名称 | 描述 | 单位 |
|---|---|---|
| Job Required CPU by User | 某用户作业请求的 CPU 总数。 | Count |
| Job Required Memory by User | 某用户作业请求的内存总量。 | Bytes |
| Running Job Required CPU by Cluster | 集群中正在运行的作业请求的 CPU 总数。 | Count |
| Running Job Required Memory by Cluster | 集群中正在运行的作业请求的内存总量。 | Bytes |
| Pending Job Required CPU by Cluster | 集群中待处理作业请求的 CPU 总数。 | Count |
| Pending Job Required Memory by Cluster | 集群中待处理作业请求的内存总量。 | Bytes |
| Job Required CPU by Queue | 每个队列中的作业请求的 CPU 总数。 | Count |
阈值配置
- 前往 Admin > Configuration Profiles > Threshold and Availability。
- 为 E-HPC 创建或编辑阈值配置文件。
- 将配置文件分配给相应的监视器以触发告警。
IT 自动化
Site24x7 的 IT 自动化工具有助于自动解决性能下降问题。当发生违规时,告警引擎会持续检查已定义阈值的系统事件,并执行相关联的自动化操作。
- 前往 Admin > IT Automation Templates。
- 创建新的自动化规则。
- 将规则映射到监视器,以实现主动处理。
配置规则
借助 Site24x7 的配置规则,您可以为多个监视器设置阈值配置文件、通知配置文件、标签和监视器组等参数,并自动化监控资源的配置设置。当新增 E-HPC 监视器时,可自动应用这些设置。
