帮助手册

Amazon Elastic Map Reduce (EMR) 监控

Amazon EMR 是一项 Web 服务,使用户能够运行大数据框架来处理大量数据。Site24x7 监控 EMR 以确保数据分析不间断进行,并在 EMR 集群中 EC2 实例等关联 AWS 服务状态发生变化时通知用户。

设置与配置

  • 如果您尚未完成此步骤,请通过将 Site24x7 创建为 IAM 用户或在您的账户与 Site24x7 的 AWS 账户之间创建跨账户 IAM 角色,来启用对 AWS 资源的访问。 了解更多。
  • 接下来,在集成 AWS 账户页面,请确保在待发现服务字段中已勾选 EMR 复选框。  了解更多。

策略与权限

请确保分配给 Site24x7 实体的 IAM 策略中包含以下只读操作。 了解更多。

  • "elasticmapreduce:ListSecurityConfigurations",
  • "elasticmapreduce:DescribeCluster",
  • "elasticmapreduce:ListClusters",
  • "elasticmapreduce:ListBootstrapActions",
  • "elasticmapreduce:ListSteps",
  • "elasticmapreduce:ListInstanceFleets",
  • "elasticmapreduce:ListInstanceGroups",
  • "elasticmapreduce:ListInstances"

轮询频率

Site24x7 根据设置的轮询频率(1 分钟至 1 天)查询 AWS 服务级别 API 和 CloudWatch API,以收集性能指标。 了解更多。

支持的指标

属性 描述 数据类型 统计方式
待分配核心节点数 等待分配的核心节点数量。仅当核心节点存在时才报告此指标。 最大值
运行中核心节点数 正在工作的核心节点数量。仅当核心节点存在时才报告此指标。 最大值
待分配任务节点数 等待分配的任务节点数量。仅当任务节点存在时才报告此指标。 最大值
运行中任务节点数 正在工作的任务节点数量。仅当任务节点存在时才报告此指标。 最大值
剩余容量 剩余的 HDFS 磁盘容量。 GB 最小值
损坏块数 HDFS 报告为已损坏的块数量。 最大值
DFS 待复制块数 块复制的状态:正在复制的块、复制请求的时效以及复制失败的请求。 最大值
HDFS 读取字节数 从 HDFS 读取的字节数。 MB 总和
HDFS 写入字节数 写入 HDFS 的字节数。 MB 总和
HDFS 利用率 当前已使用的 HDFS 存储百分比。 百分比 平均值
集群空闲状态 集群处于空闲状态时值为 1,否则为 0。 最大值
活跃数据节点数 正在接收 Hadoop 工作任务的数据节点百分比。 百分比 平均值
缺失块数 HDFS 中没有任何副本的块数量。 最大值
待删除块数 已标记为待删除的块数量。 最大值
S3 读取字节数 从 Amazon S3 读取的字节数。 MB 总和
活跃任务追踪器数 正常运行的任务追踪器百分比。 百分比 平均值
可用 Map 槽数 Hadoop 版本 1 中未使用的 Map 任务容量。 最大值
黑名单任务追踪器数 Hadoop 版本 1 中被加入黑名单的任务追踪器数量。 最大值
灰名单任务追踪器数 Hadoop 版本 1 中被加入灰名单的任务追踪器数量。 最大值
可用 Reduce 槽数 Hadoop 版本 1 中未使用的 Reduce 任务容量。 最大值
剩余 Map 任务数 Hadoop 版本 1 中每个作业的剩余 Map 任务数量。 最大值
每槽剩余 Map 任务数 Hadoop 版本 1 中集群内剩余 Map 任务总数与可用 Map 槽总数的比率。 最大值
剩余 Reduce 任务数 Hadoop 版本 1 中每个作业的剩余 Reduce 任务数量。 最大值
运行中 Map 任务数 Hadoop 版本 1 中每个作业正在运行的 Map 任务数量。 最大值
运行中 Reduce 任务数 Hadoop 版本 1 中每个作业正在运行的 Reduce 任务数量。 最大值
已完成应用数 Hadoop 版本 2 中已提交到 YARN 并完成的应用数量。 最大值
失败应用数 Hadoop 版本 2 中已提交到 YARN 但未能完成的应用数量。 最大值
已终止应用数 Hadoop 版本 2 中已提交到 YARN 且被终止的应用数量。 最大值
待处理应用数 Hadoop 版本 2 中已提交到 YARN 且处于待处理状态的应用数量。 最大值
运行中应用数 Hadoop 版本 2 中已提交到 YARN 且正在运行的应用数量。 最大值
已提交应用数 Hadoop 版本 2 中已提交到 YARN 的应用数量。 最大值
已分配容器数 Hadoop 版本 2 中 ResourceManager 分配的资源容器数量。 最大值
待处理容器数 Hadoop 版本 2 中队列中尚未分配的容器数量。 最大值
已预留容器数 Hadoop 版本 2 中已预留的容器数量。 最大值
已预留内存 Hadoop 版本 2 中已预留的内存量。 MB 最大值
已分配内存 Hadoop 版本 2 中分配给集群的内存量。 MB 最大值
可用内存 Hadoop 版本 2 中可分配的内存量。 MB 最小值
内存总量 Hadoop 版本 2 中集群的内存总量。 MB 最大值
MR 活跃节点数 Hadoop 版本 2 中当前运行 MapReduce 任务或作业的节点数量。 最小值
MR 已退役节点数 Hadoop 版本 2 中分配给 MapReduce 应用程序且已标记为 DECOMMISSIONED 状态的节点数量。 最大值
MR 丢失节点数 Hadoop 版本 2 中分配给 MapReduce 且已标记为 LOST 状态的节点数量。 最大值
MR 已重启节点数 Hadoop 版本 2 中可用于 MapReduce 的已重启并标记为 REBOOTED 状态的节点数量。 最大值
MR 节点总数 Hadoop 版本 2 中当前可用于 MapReduce 作业的节点数量。 最大值
MR 不健康节点数 Hadoop 版本 2 中可用于 MapReduce 作业且标记为 UNHEALTHY 状态的节点数量。 最大值
容器待处理比率 Hadoop 版本 2 中待处理容器与已分配容器的比率。 最大值
YARN 可用内存 Hadoop 版本 2 中 YARN 剩余可用内存百分比。 百分比 平均值
HBase 备份失败 上次备份的状态。如果备份尝试失败,则设置为 1。仅当 HBase 存在时才收集此指标。 最大值
最近一次备份耗时 上次备份完成所需的时间。仅当 HBase 存在时才收集此指标。 分钟 平均值
自上次成功备份以来的时间 集群上上次成功启动 HBase 备份后经过的分钟数。仅当 HBase 存在时才收集此指标。 分钟 平均值
多主实例组运行中节点数 运行中的主节点数量。仅在 Hadoop 版本 2 且 MultiMaster 存在时收集此指标。 最大值
多主实例组运行中节点百分比 相对于请求的主节点实例数量,正在运行的主节点百分比。仅在 Hadoop 版本 2 且 MultiMaster 存在时收集此指标。 百分比 平均值
多主实例组请求节点数 已请求的主节点数量。仅在 Hadoop 版本 2 且 MultiMaster 存在时收集此指标。 最大值

预测

估算以下性能指标的未来值,并在添加容量或扩展 AWS 基础设施方面做出明智决策。

  • 剩余容量
  • HDFS 读取字节数
  • HDFS 写入字节数
  • HDFS 利用率
  • S3 读取字节数
  • S3 写入字节数
  • 总负载

许可证

  • 每个 EMR 监视器使用一个基础监视器许可证。

Site24x7 EMR 监控界面

摘要

以时序图表形式接收所有重要 EMR 指标(包括 HDFS、YARN、节点和内存指标)的概览。

受监控的资源

如果您正在使用 Site24x7 监控 EC2 实例或 S3 存储桶,这些服务的状态将列在受监控的资源选项卡中。您可以点击任意服务查看其详细指标。您还可以通过点击操作下的铅笔图标来设置阈值,并在任一服务发生故障时接收通知。

配置

此选项卡显示集群中每个实例组的附加配置分类。如果实例组的配置被修改,新的配置将在此处反映。

步骤

集群要执行的操作以步骤形式列出。

 

 

引导操作

引导操作可用于安装其他软件或自定义集群实例的配置。自定义引导操作将列在此选项卡下。

安全配置

安全配置涉及为 EMR 文件系统创建数据加密、Kerberos 身份验证和 Amazon S3 授权。为用户角色或账户定义的此类权限以 JSON 格式显示,如下所示。

 

 

集群摘要

显示 EMR 集群的资产清单详情,包括集群状态、关联的应用程序、已部署的 EC2 实例、子网 ID 等详情。

主节点的附加安全组:用户为主节点添加的额外安全组。

属性 描述
发行版标签 Amazon EMR 发布版本。
可用区 EMR 托管的地区。
实例组类型 EC2 实例所关联的实例组。
自动终止 自动终止状态:true 或 false。
应用程序 Amazon EMR 在创建集群时安装的开源应用程序。
主节点公共 DNS 主节点的公共 DNS 名称。
集群状态 集群的状态:活跃或已终止。
状态变更消息 状态变更后 EMR 集群的状态。
日志 URI 存储在 Amazon S3 中的日志路径。
创建时间 EMR 服务的创建时间。
已运行时间 集群的总运行时间。
集群就绪时间 集群创建完成的时间。
对所有用户可见 列出可查看 EMR 的用户。
密钥名称 用户提供的用于访问 EC2 实例的密钥。
子网 ID NAT 网关所在 VPC 中的子网 ID。
主节点安全组 创建集群时托管安全组的名称。
核心和任务节点安全组 核心和任务节点的安全组名称。
EC2 实例配置文件 EC2 实例配置文件的名称。
EMR 角色 附加到 EMR 的 IAM 策略。
请求的子网 ID 用户附加的额外子网。
自动扩展角色 与自动扩展实例关联的 IAM 角色。
缩减行为 指以下两种行为之一:在实例小时边界处终止,或在任务完成时终止。
EBS 根卷大小 显示 EBS 的容量。
核心和任务节点的附加安全组 用户为核心和任务节点添加的额外安全组。
请求的可用区 用户添加的额外地区。
安全配置 EMR 的用户角色或账户权限。
Realm Kerberos 域名。
自定义 AMI ID 显示用户创建的自定义 Amazon Linux AMI。
运行中的 AMI 版本 AMI 发布版本的当前版本。

本文档对您有帮助吗?

您愿意帮助我们改进文档吗?请告诉我们哪些方面可以做得更好。


很抱歉本文档未能让您满意。我们希望了解可以从哪些方面改进您的体验。


感谢您抽出时间分享反馈。我们将利用您的反馈来改进在线帮助资源。

短链接已复制!