AWS Glue 监控
AWS Glue 是一项无服务器数据集成服务,使分析用户能够轻松地从多个来源发现、准备、移动和集成数据。
概述
Site24x7 提供实时监控功能,使您能够跟踪 Amazon Glue 监视器的性能和健康状况。该集成为您提供以下两个监视器:
Glue Job:监控您的提取、转换和加载(ETL)作业及性能。

Glue Crawler:提供有关爬虫运行和爬虫数据源的关键洞察。

使用场景
假设您有一个 AWS Glue 服务,其中手动或在工作流中计划或触发了 Glue 作业。作业运行可能会失败、超时、遇到错误或处于等待状态,导致意外问题。
通过将 AWS Glue 与 Site24x7 集成,您将收到有关等待、失败、超时或出错的作业运行的通知,帮助您及时处理问题并防止重复故障。
Site24x7 与 AWS Glue 集成的优势
将 AWS Glue 与 Site24x7 集成,以便:
- 获取有关 ETL 作业和性能的关键洞察。
- 跟踪表的添加、删除和更新过程。
- 监控作业运行、爬虫运行和爬虫数据源。
- 为指标设置阈值,并在违反阈值时接收告警(宕机、严重、警告)。
- 计划 IT 自动化,在任意时间启动作业运行或爬虫运行。
设置与配置
- 登录 Site24x7 账户,创建 Site24x7 IAM 用户,或创建跨账户 IAM 角色以启用 Site24x7 对 AWS 资源的访问权限。
- 在集成 AWS 账户页面,从待发现服务列表中选择 AWS Glue。
权限
确保 Site24x7 获得以下权限以监控 Glue Job 和 Glue Crawler:
- glue:ListJobs
- glue:ListCrawlers
- glue:GetTriggers
- glue:GetJobRuns
- glue:ListCrawls
- glue:GetJobRun
- glue:GetCrawler
- glue:GetJob
- glue:GetTags
- glue:GetClassifier
- glue:GetConnection
- glue:GetCrawlerMetrics
- glue:GetCrawlers
- glue:GetJobs
- glue:GetClassifiers
轮询频率
Site24x7 按照设置的轮询频率(从每分钟一次到每天一次)查询 AWS 服务级别 API,以收集 Glue Job 和 Glue Crawler 监视器的指标。
支持的指标
以下是每个 AWS Glue 监视器支持的指标。
Glue Job
以下是 Glue Job 监视器支持的指标:
| 指标名称 | 描述 | 统计方式 | 单位 |
|---|---|---|---|
| Total Runs | 作业运行总次数。 | Sum | Count |
| Completed Runs | 已完成的作业运行次数。 | Sum | Count |
| Failed Runs | 失败的作业运行次数。 | Sum | Count |
| Canceled Runs | 已取消的作业运行次数。 | Sum | Count |
| Error Runs | 出错的作业运行次数。 | Sum | Count |
| Timeout Runs | 超时的作业运行次数。 | Sum | Count |
| Waiting Runs | 处于等待状态的作业运行次数。 | Sum | Count |
| Completed Runs Percentage | 已完成作业运行的百分比。 | Average | Percentage |
| Failed Runs Percentage | 失败作业运行的百分比。 | Average | Percentage |
| Canceled Runs Percentage | 已取消作业运行的百分比。 | Average | Percentage |
| Error Runs Percentage | 出错作业运行的百分比。 | Average | Percentage |
| Timeout Runs Percentage | 超时作业运行的百分比。 | Average | Percentage |
| Waiting Runs Percentage | 处于等待状态的作业运行百分比。 | Average | Percentage |
以下适用于 Spark、Spark Streaming 和 Python Shell 作业类型的指标,仅在 AWS Glue 控制台中启用作业详情选项卡下高级属性 > 作业指标选项后才会被监控。
| 指标名称 | 描述 | 统计方式 | 单位 |
|---|---|---|---|
| CPU Load Usage | 驱动程序使用的 CPU 系统负载比例。 | Average | Percentage |
| Bytes Read | 所有执行器中所有已完成 Spark 任务从所有数据源读取的字节数。 | Sum | Bytes |
| Records Read | 从所有数据源读取的记录数。 | Sum | Count |
| Read From S3 | 所有执行器从 Amazon S3 读取的字节数。 | Sum | Bytes |
| Write into S3 | 所有执行器写入 Amazon S3 的字节数。 | Sum | Bytes |
| Shuffle Bytes Read | 所有执行器为在它们之间 shuffle 数据而读取的字节数。 | Sum | Bytes |
| Shuffle Bytes Written | 所有执行器为在它们之间 shuffle 数据而写入的字节数。 | Sum | Bytes |
| Memory Used by Driver | 驱动程序 JVM 堆使用的内存字节数。 | Average | Bytes |
| Memory Used by Executor | 所有执行器 JVM 堆使用的内存字节数。 | Average | Bytes |
| Disk Used | 所有执行器使用的磁盘空间(MB)。 | Average | Megabytes |
| ETL Elapsed Time | ETL 已耗时间(毫秒,不包括作业启动时间)。 | Sum | Milliseconds |
| Completed Tasks | 作业中已完成的任务数。 | Sum | Count |
| Failed Tasks | 作业中失败的任务数。 | Sum | Count |
| Killed Tasks | 作业中被终止的任务数。 | Sum | Count |
| Completed Stages | 作业中已完成的阶段数。 | Sum | Count |
以下指标仅适用于 Spark Streaming 作业类型,仅在 AWS Glue 控制台中启用作业详情选项卡下高级属性 > 作业指标选项后才会被监控。
| 指标名称 | 描述 | 统计方式 | 单位 |
|---|---|---|---|
| Records Received in Streaming Batch | 微批次中接收到的记录数 | Sum | Count |
| Batch Processing Time | 批处理时间指标帮助您判断集群是否资源不足或资源过剩。 | Sum | Milliseconds |
| Input Records Per Second | 接收输入记录的速率。 | Sum | Count |
| Processing Records Per Second | 处理记录的速率。 | Sum | Count |
| All Executors | 活跃运行的作业执行器数量 | Average | Count |
| Maximum Executors | 满足当前负载所需的最大(活跃运行和待处理)作业执行器数量。 | Average | Count |
以下适用于 Spark、Spark Streaming 和 Python Shell 作业类型的 Glue 可观测性指标,仅在 AWS Glue 控制台中启用作业详情选项卡下高级属性 > 作业可观测性指标选项后才会被监控。
| 指标名称 | 描述 | 统计方式 | 单位 |
|---|---|---|---|
| Job Skewness | 作业阶段偏斜度的加权平均值。 | Average | Count |
| Worker Utilization | 实际使用的已分配工作节点百分比。 | Average | Percentage |
| Driver Disk Used | 驱动程序使用的磁盘空间百分比。 | Average | Percentage |
| Executor Disk Used | 执行器使用的磁盘空间百分比。 | Average | Percentage |
Glue Crawler
以下是 Glue Crawler 监视器支持的指标:
| 指标名称 | 描述 | 统计方式 | 单位 |
|---|---|---|---|
| Tables Created | 已创建的表数量。 | Average | Count |
| Tables Updated | 已更新的表数量。 | Average | Count |
| Tables Deleted | 已删除的表数量。 | Average | Count |
| Time Left Seconds | 完成当前爬取任务的预计剩余时间。 | Sum | Seconds |
| Last Runtime Seconds | 最近一次爬虫运行的持续时间。 | Sum | Seconds |
| Median Runtime Seconds | 所有爬虫运行的中位运行时长。 | Sum | Seconds |
| Total Runs | 爬虫运行总次数。 | Sum | Count |
| Completed Runs | 已完成的爬虫运行次数。 | Sum | Count |
| Failed Runs | 失败的爬虫运行次数。 | Sum | Count |
| Canceled Runs | 已取消的爬虫运行次数。 | Sum | Count |
| Completed Runs Percentage | 已完成爬虫运行的百分比。 | Average | Percentage |
| Failed Runs Percentage | 失败爬虫运行的百分比。 | Average | Percentage |
| Canceled Runs Percentage | 已取消爬虫运行的百分比。 | Average | Percentage |
阈值配置
为 AWS Glue 监视器配置阈值:
- 登录 Site24x7 账户,导航至管理 > 配置 文件 > 阈值 与 可用性。
- 点击添加阈值配置文件。
- 从监视器类型下拉菜单中选择适用的监视器类型,并在显示名称字段中填写适当的名称。适用的监视器类型为 Glue Job 和 Glue Crawler。
- 支持的指标显示在阈值配置部分。您可以为上述所有指标设置阈值。
- 点击保存。
许可证
- Glue Job:每个 Glue Job 监视器被视为一个基础监视器。
- Glue Crawler:每个 Glue Crawler 监视器被视为一个基础监视器。
IT 自动化
您可以添加自动化来执行 Glue Job 和 Glue Crawler 运行。前往管理 > IT 自动化模板 (+) > 添加自动化模板。添加自动化后,您可以计划它们依次执行。
查看 AWS Glue 数据
查看 AWS Glue Job 数据:
- 从 Site24x7 控制台,导航至云 > AWS > Glue Job。
查看 AWS Glue Crawler 数据:
- 从 Site24x7 控制台,导航至云 > AWS > Glue Crawler。
AWS Glue 监视器数据
以下是每个 AWS Glue 监视器的数据说明。
Glue Job 监视器数据
您可以在以下选项卡中查看 Glue Job 数据。
概要
概要选项卡以图表形式全面呈现事件时间线和指标。您可以在此选项卡中查看 Glue Job 性能详情以及最近一次作业运行详情。

作业运行
作业运行选项卡提供所有作业运行的详细信息。

您可以按运行 ID、状态、开始时间、结束时间和日志组名称筛选作业运行详情。点击适用的运行 ID 超链接,可从作业运行详情页面获取该作业运行的详细概览。

连接
在连接选项卡中查看作业的所有连接。您可以使用连接名称、类型和创建时间等选项筛选连接详情。
触发器
触发器选项卡提供触发作业的 Glue 触发器详情,例如触发器名称、类型和创建时间。
配置
配置选项卡汇总了有关 Glue Job 监视器的信息,包括名称、类型、创建日期和脚本位置。源详情部分提供作业存储的远程源数据,例如仓库提供商、仓库名称和分支名称。
中断
中断选项卡提供中断的开始时间、结束时间、持续时间及备注(如有)等详细信息。
清单
从清单选项卡获取作业名称、地区和监视器许可证类别等详细信息。在此选项卡中根据用户设置并查看阈值与可用性配置文件和通知配置文件。
日志报表
此选项卡提供 Glue Job 监视器日志状态的汇总报表,可下载为 CSV 文件。
Glue Crawler 监视器数据
您可以在以下选项卡中查看 Glue Crawler 数据。
概要
概要选项卡以图表形式全面展示事件时间线和指标,包括 Glue Crawler 性能和最近一次爬虫运行详情。

爬虫运行
爬虫运行选项卡提供所有爬虫运行的详细信息。您可以按运行 ID、状态、开始时间、结束时间和 DPU 小时数筛选爬虫运行详情。

点击适用的运行 ID 超链接,可从爬虫运行详情页面获取该爬虫运行的详细概览。

分类器
分类器选项卡提供为爬虫指定的所有分类器的详细信息。您可以使用分类器名称、类型和创建时间等选项筛选分类器详情。
爬虫源
爬虫源选项卡显示爬虫提取数据的所有源。您可以在此选项卡中查看源名称、连接名称、路径和表数量。
配置
配置选项卡汇总了有关 Glue Crawler 监视器的信息,包括名称、状态、版本和创建日期。
中断
中断选项卡提供中断的开始时间、结束时间、持续时间及备注(如有)等详细信息。
清单
从清单选项卡获取爬虫名称、地区和监视器许可证类别等详细信息。在此选项卡中根据用户设置并查看阈值与可用性配置文件和通知配置文件。
日志报表
此选项卡提供 Glue Crawler 监视器日志状态的汇总报表,可下载为 CSV 文件。
