帮助手册

AWS Batch 监控集成

AWS Batch 是一种全托管的批处理服务,帮助您在 AWS 云上构建和执行批量计算工作负载。批处理是一种经济高效的方法,可快速、高效地处理多个称为"作业"的软件程序。

Site24x7 与 AWS Batch 的集成使您能够监控和分析批处理作业,包括已提交作业、失败作业、待处理作业和成功作业等。

使用场景

假设您已将 AWS Batch 监视器与 Site24x7 集成,其中有批处理作业处于待处理或运行状态,并且已占用您的 AWS 资源较长时间。在这种情况下,如果您的账户已与 Site24x7 集成,则可以一次选择多个作业,并使用 IT 自动化终止或取消它们。同样,当已集成的监视器发生阈值突破时,您也可以收到告警。

Site24x7 与 AWS Batch 集成的优势

通过将 Site24x7 与 AWS Batch 集成,您可以:

  • 为指标设置阈值并在发生阈值突破时收到告警,从而识别和排查 AWS Batch 监视器问题。
  • 安排 IT 自动化,随时取消或终止作业。
  • 获取作业定义的详细概述。
  • 查看 CloudWatch 日志,查找失败作业的特定错误代码或模式。

设置与配置

  • 如果尚未完成,请通过在您的账户与 Site24x7 的 AWS 账户之间创建跨账户 IAM 角色来启用对 AWS 资源的访问权限。了解更多
  • 在"集成 AWS 账户"页面上,确保在待发现的服务字段中已选中 AWS Batch。

权限

请确保 Site24x7 获得以下权限,以监控您 AWS 资源的批处理作业:

  • "batch:DescribeJobDefinitions"
  • "batch:DescribeJobDefinitions"
  • "batch:DescribeJobQueues"
  • "batch:DescribeJobs"
  • "batch:ListJobs"
  • "batch:TerminateJob"
  • "batch:CancelJob"
  • "describeComputeEnvironments"
  • "describeJobQueues"
  • "listTagsForResource"  

轮询频率

Site24x7 按照设定的轮询频率(一分钟到一天)查询 AWS 服务级 API,以从 AWS Batch 收集指标。

计算环境支持的指标

指标名称 说明 统计方式 单位
 Total Submitted Jobs  附加到计算环境的队列中已提交作业的总数。   平均值  数量
 Total Pending Jobs  附加到计算环境的队列中待处理作业的总数。  平均值  数量
 Total Runnable Jobs  附加到计算环境的队列中可运行作业的总数。   平均值  数量
 Total Starting Jobs   附加到计算环境的队列中正在启动的作业总数。  平均值  数量
 Total Running Jobs  附加到计算环境的队列中正在运行的作业总数。   平均值  数量
 Total Succeeded Jobs  附加到计算环境的队列中已成功的作业总数。   平均值  数量
 Total Failed Jobs  附加到计算环境的队列中已失败的作业总数。  平均值  数量
 Total Queue Count  附加到计算环境的队列总数。  平均值  数量

返回顶部 

作业队列支持的指标 

作业队列用于存储您提交的作业,直到 AWS Batch 调度器在计算环境中的某个资源上运行该作业为止。

指标名称 说明 统计方式 单位
 Submitted Jobs  队列中已提交作业的数量。  平均值  数量
 Pending Jobs  队列中待处理作业的数量。  平均值  数量
 Runnable Jobs  队列中可运行作业的数量。  平均值  数量
 Starting Jobs  队列中正在启动的作业数量。  平均值  数量
 Running Jobs  队列中正在运行的作业总数。  平均值  数量
 Succeeded Jobs  队列中已成功的作业总数。  平均值  数量
 Failed Jobs  队列中已失败的作业总数。  平均值  数量
 Total Compute Environment Attached   队列中关联的计算环境作业总数。  平均值  数量

授权许可

IT 自动化

您可以添加自动化以执行 AWS Batch 操作。前往管理 > IT 自动化模板(+) > 添加自动化模板。添加自动化后,您可以安排它们按顺序依次执行。

查看 AWS Batch

要查看 AWS 资源的批处理作业,请登录 Site24x7 账户,然后导航至 > AWS > AWS Batch

Site24x7 与 AWS Batch 的集成还包含 AWS Batch 队列监视器。AWS Batch 可以附加多个队列。AWS Batch 队列监视器提供每个队列的作业详情。

AWS Batch 数据

您可以在以下标签页中查看 AWS Batch 监视器数据:

摘要

摘要标签页以图表形式提供 AWS Batch 指标的概述,使您能够查看已提交作业总数待处理作业总数运行中作业总数等详情。

批处理作业详情

批处理作业详情标签页显示与队列相关的作业详情。您可以按作业状态筛选和查看作业。

受监控的资源

受监控的资源标签页显示与 AWS Batch 关联且同时由 Site24x7 监控的所有资源。您还可以查看资源状态、资源类型、资源 ID 和配置详情。

拓扑视图

拓扑视图标签页提供实时、以资源为中心的依赖关系图。它实时动态追踪 Batch 资源与其周围 AWS 基础架构的连接关系,使您在告警触发时能够更快速地进行根因定位。如果任何连接的组件处于严重状态,该状态以及中断原因将在拓扑视图中标注,让您无需离开监视器页面即可精准定位故障点。与账户级拓扑视图不同,该标签页将可视化范围限定为单个资源,精准回答以下问题:该 Batch 资源连接了什么,如果它出现故障会影响什么?您可以从单个资源出发,沿依赖链追溯至其主要父级实体,直至服务类型、区域和 AWS 账户层级。

配置

配置标签页提供受监控资源的配置详情,包括区域作业名称队列状态等信息。

中断

中断标签页显示资源的状态历史记录,例如中断异常严重维护中。您还可以在中断标签页中查看中断的开始时间、结束时间、持续时长以及备注(如有)。

返回顶部

本文档对您有帮助吗?

您愿意帮助我们改进文档吗?请告诉我们哪些方面可以做得更好。


很抱歉本文档未能让您满意。我们希望了解可以从哪些方面改进您的体验。


感谢您抽出时间分享反馈。我们将利用您的反馈来改进在线帮助资源。

短链接已复制!