Amazon Elastic Map Reduce (EMR) 监控
Amazon EMR 是一项 Web 服务,使用户能够运行大数据框架来处理大量数据。Site24x7 监控 EMR 以确保数据分析不间断进行,并在 EMR 集群中 EC2 实例等关联 AWS 服务状态发生变化时通知用户。
设置与配置
- 如果您尚未完成此步骤,请通过将 Site24x7 创建为 IAM 用户或在您的账户与 Site24x7 的 AWS 账户之间创建跨账户 IAM 角色,来启用对 AWS 资源的访问。 了解更多。
- 接下来,在集成 AWS 账户页面,请确保在待发现服务字段中已勾选 EMR 复选框。 了解更多。
策略与权限
请确保分配给 Site24x7 实体的 IAM 策略中包含以下只读操作。 了解更多。
- "elasticmapreduce:ListSecurityConfigurations",
- "elasticmapreduce:DescribeCluster",
- "elasticmapreduce:ListClusters",
- "elasticmapreduce:ListBootstrapActions",
- "elasticmapreduce:ListSteps",
- "elasticmapreduce:ListInstanceFleets",
- "elasticmapreduce:ListInstanceGroups",
- "elasticmapreduce:ListInstances"
轮询频率
Site24x7 根据设置的轮询频率(1 分钟至 1 天)查询 AWS 服务级别 API 和 CloudWatch API,以收集性能指标。 了解更多。
支持的指标
| 属性 | 描述 | 数据类型 | 统计方式 |
| 待分配核心节点数 | 等待分配的核心节点数量。仅当核心节点存在时才报告此指标。 | 个 | 最大值 |
| 运行中核心节点数 | 正在工作的核心节点数量。仅当核心节点存在时才报告此指标。 | 个 | 最大值 |
| 待分配任务节点数 | 等待分配的任务节点数量。仅当任务节点存在时才报告此指标。 | 个 | 最大值 |
| 运行中任务节点数 | 正在工作的任务节点数量。仅当任务节点存在时才报告此指标。 | 个 | 最大值 |
| 剩余容量 | 剩余的 HDFS 磁盘容量。 | GB | 最小值 |
| 损坏块数 | HDFS 报告为已损坏的块数量。 | 个 | 最大值 |
| DFS 待复制块数 | 块复制的状态:正在复制的块、复制请求的时效以及复制失败的请求。 | 个 | 最大值 |
| HDFS 读取字节数 | 从 HDFS 读取的字节数。 | MB | 总和 |
| HDFS 写入字节数 | 写入 HDFS 的字节数。 | MB | 总和 |
| HDFS 利用率 | 当前已使用的 HDFS 存储百分比。 | 百分比 | 平均值 |
| 集群空闲状态 | 集群处于空闲状态时值为 1,否则为 0。 | 个 | 最大值 |
| 活跃数据节点数 | 正在接收 Hadoop 工作任务的数据节点百分比。 | 百分比 | 平均值 |
| 缺失块数 | HDFS 中没有任何副本的块数量。 | 个 | 最大值 |
| 待删除块数 | 已标记为待删除的块数量。 | 个 | 最大值 |
| S3 读取字节数 | 从 Amazon S3 读取的字节数。 | MB | 总和 |
| 活跃任务追踪器数 | 正常运行的任务追踪器百分比。 | 百分比 | 平均值 |
| 可用 Map 槽数 | Hadoop 版本 1 中未使用的 Map 任务容量。 | 个 | 最大值 |
| 黑名单任务追踪器数 | Hadoop 版本 1 中被加入黑名单的任务追踪器数量。 | 个 | 最大值 |
| 灰名单任务追踪器数 | Hadoop 版本 1 中被加入灰名单的任务追踪器数量。 | 个 | 最大值 |
| 可用 Reduce 槽数 | Hadoop 版本 1 中未使用的 Reduce 任务容量。 | 个 | 最大值 |
| 剩余 Map 任务数 | Hadoop 版本 1 中每个作业的剩余 Map 任务数量。 | 个 | 最大值 |
| 每槽剩余 Map 任务数 | Hadoop 版本 1 中集群内剩余 Map 任务总数与可用 Map 槽总数的比率。 | 个 | 最大值 |
| 剩余 Reduce 任务数 | Hadoop 版本 1 中每个作业的剩余 Reduce 任务数量。 | 个 | 最大值 |
| 运行中 Map 任务数 | Hadoop 版本 1 中每个作业正在运行的 Map 任务数量。 | 个 | 最大值 |
| 运行中 Reduce 任务数 | Hadoop 版本 1 中每个作业正在运行的 Reduce 任务数量。 | 个 | 最大值 |
| 已完成应用数 | Hadoop 版本 2 中已提交到 YARN 并完成的应用数量。 | 个 | 最大值 |
| 失败应用数 | Hadoop 版本 2 中已提交到 YARN 但未能完成的应用数量。 | 个 | 最大值 |
| 已终止应用数 | Hadoop 版本 2 中已提交到 YARN 且被终止的应用数量。 | 个 | 最大值 |
| 待处理应用数 | Hadoop 版本 2 中已提交到 YARN 且处于待处理状态的应用数量。 | 个 | 最大值 |
| 运行中应用数 | Hadoop 版本 2 中已提交到 YARN 且正在运行的应用数量。 | 个 | 最大值 |
| 已提交应用数 | Hadoop 版本 2 中已提交到 YARN 的应用数量。 | 个 | 最大值 |
| 已分配容器数 | Hadoop 版本 2 中 ResourceManager 分配的资源容器数量。 | 个 | 最大值 |
| 待处理容器数 | Hadoop 版本 2 中队列中尚未分配的容器数量。 | 个 | 最大值 |
| 已预留容器数 | Hadoop 版本 2 中已预留的容器数量。 | 个 | 最大值 |
| 已预留内存 | Hadoop 版本 2 中已预留的内存量。 | MB | 最大值 |
| 已分配内存 | Hadoop 版本 2 中分配给集群的内存量。 | MB | 最大值 |
| 可用内存 | Hadoop 版本 2 中可分配的内存量。 | MB | 最小值 |
| 内存总量 | Hadoop 版本 2 中集群的内存总量。 | MB | 最大值 |
| MR 活跃节点数 | Hadoop 版本 2 中当前运行 MapReduce 任务或作业的节点数量。 | 个 | 最小值 |
| MR 已退役节点数 | Hadoop 版本 2 中分配给 MapReduce 应用程序且已标记为 DECOMMISSIONED 状态的节点数量。 | 个 | 最大值 |
| MR 丢失节点数 | Hadoop 版本 2 中分配给 MapReduce 且已标记为 LOST 状态的节点数量。 | 个 | 最大值 |
| MR 已重启节点数 | Hadoop 版本 2 中可用于 MapReduce 的已重启并标记为 REBOOTED 状态的节点数量。 | 个 | 最大值 |
| MR 节点总数 | Hadoop 版本 2 中当前可用于 MapReduce 作业的节点数量。 | 个 | 最大值 |
| MR 不健康节点数 | Hadoop 版本 2 中可用于 MapReduce 作业且标记为 UNHEALTHY 状态的节点数量。 | 个 | 最大值 |
| 容器待处理比率 | Hadoop 版本 2 中待处理容器与已分配容器的比率。 | 个 | 最大值 |
| YARN 可用内存 | Hadoop 版本 2 中 YARN 剩余可用内存百分比。 | 百分比 | 平均值 |
| HBase 备份失败 | 上次备份的状态。如果备份尝试失败,则设置为 1。仅当 HBase 存在时才收集此指标。 | 个 | 最大值 |
| 最近一次备份耗时 | 上次备份完成所需的时间。仅当 HBase 存在时才收集此指标。 | 分钟 | 平均值 |
| 自上次成功备份以来的时间 | 集群上上次成功启动 HBase 备份后经过的分钟数。仅当 HBase 存在时才收集此指标。 | 分钟 | 平均值 |
| 多主实例组运行中节点数 | 运行中的主节点数量。仅在 Hadoop 版本 2 且 MultiMaster 存在时收集此指标。 | 个 | 最大值 |
| 多主实例组运行中节点百分比 | 相对于请求的主节点实例数量,正在运行的主节点百分比。仅在 Hadoop 版本 2 且 MultiMaster 存在时收集此指标。 | 百分比 | 平均值 |
| 多主实例组请求节点数 | 已请求的主节点数量。仅在 Hadoop 版本 2 且 MultiMaster 存在时收集此指标。 | 个 | 最大值 |
预测
估算以下性能指标的未来值,并在添加容量或扩展 AWS 基础设施方面做出明智决策。
- 剩余容量
- HDFS 读取字节数
- HDFS 写入字节数
- HDFS 利用率
- S3 读取字节数
- S3 写入字节数
- 总负载
许可证
- 每个 EMR 监视器使用一个基础监视器许可证。
Site24x7 EMR 监控界面
摘要
以时序图表形式接收所有重要 EMR 指标(包括 HDFS、YARN、节点和内存指标)的概览。
受监控的资源
如果您正在使用 Site24x7 监控 EC2 实例或 S3 存储桶,这些服务的状态将列在受监控的资源选项卡中。您可以点击任意服务查看其详细指标。您还可以通过点击操作下的铅笔图标来设置阈值,并在任一服务发生故障时接收通知。
配置
此选项卡显示集群中每个实例组的附加配置分类。如果实例组的配置被修改,新的配置将在此处反映。
步骤
集群要执行的操作以步骤形式列出。

引导操作
引导操作可用于安装其他软件或自定义集群实例的配置。自定义引导操作将列在此选项卡下。
安全配置
安全配置涉及为 EMR 文件系统创建数据加密、Kerberos 身份验证和 Amazon S3 授权。为用户角色或账户定义的此类权限以 JSON 格式显示,如下所示。

集群摘要
显示 EMR 集群的资产清单详情,包括集群状态、关联的应用程序、已部署的 EC2 实例、子网 ID 等详情。
主节点的附加安全组:用户为主节点添加的额外安全组。
| 属性 | 描述 |
| 发行版标签 | Amazon EMR 发布版本。 |
| 可用区 | EMR 托管的地区。 |
| 实例组类型 | EC2 实例所关联的实例组。 |
| 自动终止 | 自动终止状态:true 或 false。 |
| 应用程序 | Amazon EMR 在创建集群时安装的开源应用程序。 |
| 主节点公共 DNS | 主节点的公共 DNS 名称。 |
| 集群状态 | 集群的状态:活跃或已终止。 |
| 状态变更消息 | 状态变更后 EMR 集群的状态。 |
| 日志 URI | 存储在 Amazon S3 中的日志路径。 |
| 创建时间 | EMR 服务的创建时间。 |
| 已运行时间 | 集群的总运行时间。 |
| 集群就绪时间 | 集群创建完成的时间。 |
| 对所有用户可见 | 列出可查看 EMR 的用户。 |
| 密钥名称 | 用户提供的用于访问 EC2 实例的密钥。 |
| 子网 ID | NAT 网关所在 VPC 中的子网 ID。 |
| 主节点安全组 | 创建集群时托管安全组的名称。 |
| 核心和任务节点安全组 | 核心和任务节点的安全组名称。 |
| EC2 实例配置文件 | EC2 实例配置文件的名称。 |
| EMR 角色 | 附加到 EMR 的 IAM 策略。 |
| 请求的子网 ID | 用户附加的额外子网。 |
| 自动扩展角色 | 与自动扩展实例关联的 IAM 角色。 |
| 缩减行为 | 指以下两种行为之一:在实例小时边界处终止,或在任务完成时终止。 |
| EBS 根卷大小 | 显示 EBS 的容量。 |
| 核心和任务节点的附加安全组 | 用户为核心和任务节点添加的额外安全组。 |
| 请求的可用区 | 用户添加的额外地区。 |
| 安全配置 | EMR 的用户角色或账户权限。 |
| Realm | Kerberos 域名。 |
| 自定义 AMI ID | 显示用户创建的自定义 Amazon Linux AMI。 |
| 运行中的 AMI 版本 | AMI 发布版本的当前版本。 |
