AWS Batch 监控集成
AWS Batch 是一种全托管的批处理服务,帮助您在 AWS 云上构建和执行批量计算工作负载。批处理是一种经济高效的方法,可快速、高效地处理多个称为"作业"的软件程序。
Site24x7 与 AWS Batch 的集成使您能够监控和分析批处理作业,包括已提交作业、失败作业、待处理作业和成功作业等。

使用场景
假设您已将 AWS Batch 监视器与 Site24x7 集成,其中有批处理作业处于待处理或运行状态,并且已占用您的 AWS 资源较长时间。在这种情况下,如果您的账户已与 Site24x7 集成,则可以一次选择多个作业,并使用 IT 自动化终止或取消它们。同样,当已集成的监视器发生阈值突破时,您也可以收到告警。
Site24x7 与 AWS Batch 集成的优势
通过将 Site24x7 与 AWS Batch 集成,您可以:
- 为指标设置阈值并在发生阈值突破时收到告警,从而识别和排查 AWS Batch 监视器问题。
- 安排 IT 自动化,随时取消或终止作业。
- 获取作业定义的详细概述。
- 查看 CloudWatch 日志,查找失败作业的特定错误代码或模式。
设置与配置
- 如果尚未完成,请通过在您的账户与 Site24x7 的 AWS 账户之间创建跨账户 IAM 角色来启用对 AWS 资源的访问权限。了解更多。
- 在"集成 AWS 账户"页面上,确保在待发现的服务字段中已选中 AWS Batch。
权限
请确保 Site24x7 获得以下权限,以监控您 AWS 资源的批处理作业:
- "batch:DescribeJobDefinitions"
- "batch:DescribeJobDefinitions"
- "batch:DescribeJobQueues"
- "batch:DescribeJobs"
- "batch:ListJobs"
- "batch:TerminateJob"
- "batch:CancelJob"
- "describeComputeEnvironments"
- "describeJobQueues"
- "listTagsForResource"
轮询频率
Site24x7 按照设定的轮询频率(一分钟到一天)查询 AWS 服务级 API,以从 AWS Batch 收集指标。
计算环境支持的指标
| 指标名称 | 说明 | 统计方式 | 单位 |
|---|---|---|---|
| Total Submitted Jobs | 附加到计算环境的队列中已提交作业的总数。 | 平均值 | 数量 |
| Total Pending Jobs | 附加到计算环境的队列中待处理作业的总数。 | 平均值 | 数量 |
| Total Runnable Jobs | 附加到计算环境的队列中可运行作业的总数。 | 平均值 | 数量 |
| Total Starting Jobs | 附加到计算环境的队列中正在启动的作业总数。 | 平均值 | 数量 |
| Total Running Jobs | 附加到计算环境的队列中正在运行的作业总数。 | 平均值 | 数量 |
| Total Succeeded Jobs | 附加到计算环境的队列中已成功的作业总数。 | 平均值 | 数量 |
| Total Failed Jobs | 附加到计算环境的队列中已失败的作业总数。 | 平均值 | 数量 |
| Total Queue Count | 附加到计算环境的队列总数。 | 平均值 | 数量 |
作业队列支持的指标
作业队列用于存储您提交的作业,直到 AWS Batch 调度器在计算环境中的某个资源上运行该作业为止。
| 指标名称 | 说明 | 统计方式 | 单位 |
|---|---|---|---|
| Submitted Jobs | 队列中已提交作业的数量。 | 平均值 | 数量 |
| Pending Jobs | 队列中待处理作业的数量。 | 平均值 | 数量 |
| Runnable Jobs | 队列中可运行作业的数量。 | 平均值 | 数量 |
| Starting Jobs | 队列中正在启动的作业数量。 | 平均值 | 数量 |
| Running Jobs | 队列中正在运行的作业总数。 | 平均值 | 数量 |
| Succeeded Jobs | 队列中已成功的作业总数。 | 平均值 | 数量 |
| Failed Jobs | 队列中已失败的作业总数。 | 平均值 | 数量 |
| Total Compute Environment Attached | 队列中关联的计算环境作业总数。 | 平均值 | 数量 |
授权许可
IT 自动化
您可以添加自动化以执行 AWS Batch 操作。前往管理 > IT 自动化模板(+) > 添加自动化模板。添加自动化后,您可以安排它们按顺序依次执行。
查看 AWS Batch
要查看 AWS 资源的批处理作业,请登录 Site24x7 账户,然后导航至云 > AWS > AWS Batch。
Site24x7 与 AWS Batch 的集成还包含 AWS Batch 队列监视器。AWS Batch 可以附加多个队列。AWS Batch 队列监视器提供每个队列的作业详情。
AWS Batch 数据
您可以在以下标签页中查看 AWS Batch 监视器数据:
摘要
摘要标签页以图表形式提供 AWS Batch 指标的概述,使您能够查看已提交作业总数、待处理作业总数和运行中作业总数等详情。
批处理作业详情
批处理作业详情标签页显示与队列相关的作业详情。您可以按作业状态筛选和查看作业。
受监控的资源
受监控的资源标签页显示与 AWS Batch 关联且同时由 Site24x7 监控的所有资源。您还可以查看资源状态、资源类型、资源 ID 和配置详情。
拓扑视图
拓扑视图标签页提供实时、以资源为中心的依赖关系图。它实时动态追踪 Batch 资源与其周围 AWS 基础架构的连接关系,使您在告警触发时能够更快速地进行根因定位。如果任何连接的组件处于严重状态,该状态以及中断原因将在拓扑视图中标注,让您无需离开监视器页面即可精准定位故障点。与账户级拓扑视图不同,该标签页将可视化范围限定为单个资源,精准回答以下问题:该 Batch 资源连接了什么,如果它出现故障会影响什么?您可以从单个资源出发,沿依赖链追溯至其主要父级实体,直至服务类型、区域和 AWS 账户层级。
配置
配置标签页提供受监控资源的配置详情,包括区域、作业名称、队列状态等信息。
中断
中断标签页显示资源的状态历史记录,例如中断、异常、严重或维护中。您还可以在中断标签页中查看中断的开始时间、结束时间、持续时长以及备注(如有)。
