Hadoop 监控的性能指标

根据故障卷和缓存块、磁盘利用率和 NameNode 的平均负载查看前 N 个 DataNode;活的、陈旧的和死的 DataNode 等等 - 从一个控制台。设置阈值并在指标超过配置值时收到通知。 

成功安装 Linux 监控代理后,将自动发现整个 Hadoop 集群并将其添加到 服务器>  Hadoop> 集群名称下进行监控。如果您正在监控多个集群,您可以在HadoopHadoop Clusters下找到它们。

健康状况仪表板

健康状况仪表板提供整个 Hadoop 集群的当前状态。仪表板中显示的其他指标包括基于故障卷和缓存块的前 N个 DataNode、卷故障、堆内存统计信息、文件统计信息等。仪表板将每分钟自动刷新一次;要立即刷新它,请单击页面标题旁边的刷新图标。将此报告共享为 PDF 文件或创建永久链接以公开共享此仪表板。

DataNodes、NameNodes 和 YARN 的性能指标

您可以查看为监控添加的每个 DataNode、NameNode 和 YARN 的性能指标。转到服务器Hadoop> 单击 Hadoop 集群 > NameNodesDataNodesYARN> 单击监视器。

确保在每个 DataNode、NameNode 和 YARN 中安装了 Site24x7 Linux Monitoring 代理,以查看以下性能指标。如果您尚未安装代理扩展,请转到服务器Hadoop> 单击集群 >  NameNodesDataNodesYARN> 单击监视器 >服务器监视扩展>立即开始> 选择监视器> 单击提交

NameNode 的指标:

在每个 NameNode 中安装 Linux 监控代理后,您可以在摘要选项卡下看到每个 NameNode 监控的以下指标(服务器>  Hadoop> 单击 Hadoop 集群 > NameNodes):

参数 描述
DFS 容量利用率 DFS 集群中的已用和可用空间 
文件统计 NameNode 跟踪的文件总数 
堆内存统计 当前使用和提交的堆内存(以 GB 为单位) 
非堆内存统计 当前使用和提交的非堆内存(以 GB 为单位)
总负载 跨 DataNode 的并发文件访问连接数
DFS 复制 复制不足的块数、待复制的块数和计划复制的块数
日志统计 致命、错误和警告日志的数量 
线程统计  新的、运行的、阻塞的、等待的和终止的线程数
块统计  已分配块、丢失块和具有损坏副本的块的总数 
节点- 列出与此集群关联的所有节点。
CPU (%) NameNode的CPU利用率 
内存 (%)  NameNode的内存利用率 
已用磁盘 (%)  NameNode的磁盘利用率 
状态 NameNode 的可用性 - Up 或 Down
安装代理 在还没有扩展的节点中安装 Linux 监控代理扩展。

数据节点的指标:

在每个 DataNode 中安装 Linux 监控代理后,您可以在 Summary 选项卡下查看每个 DataNode 监视器的以下指标(服务器Hadoop> 单击 Hadoop 集群 > DataNodes):

参数 描述
使用的 DFS  DataNode使用的DFS空间 
使用的缓存  缓存的块数 
堆内存统计 当前使用和提交的堆内存(以 GB 为单位) 
非堆内存统计  当前使用和提交的非堆内存(以 GB 为单位) 
失败的缓存块  缓存失败的块数 
失败的取消缓存块 未能从缓存中删除的块数
日志统计  致命、错误和警告日志的数量  
线程统计 新的、运行的、阻塞的、等待的和终止的线程数 
失败的卷 失败的卷数。尽管发生故障的卷不会停止 Hadoop 集群的性能,但了解发生此类故障的原因很重要。  

YARN 的指标:

在每个 YARN 中安装 Linux 监控代理后,您可以在“摘要”选项卡下看到每个 YARN 监视器的以下指标(服务器Hadoop> 单击 Hadoop 集群 > YARN):

范围 描述
提交/完成的应用程序 已完成应用的数量 
正在运行/待定的应用程序 正在运行和待处理的应用程序数量 
应用程序失败/终止 失败和终止的应用程序数量 
节点详细信息 不健康、丢失、活动、退役和重新启动的节点管理器的数量 
内存统计 保留、分配和可用内存的总量
虚拟内核 保留和分配的虚拟核心数
容器统计 分配和保留的容器数
如果您在 Hadoop 集群中运行 ZooKeeper,请在 ZooKeeper 应用程序中安装 Linux 代理并对其进行监控。了解更多

添加阈值和可用性配置文件

一旦 NameNodes、DataNodes 和 YARN 监视器成功添加到您的 Site24x7 帐户,您就可以为上述每个指标定义阈值,并在出现违规时收到通知。按照以下步骤添加/编辑阈值配置文件:

  1. 登录到 Site24x7 并转到服务器Hadoop
  2. 单击 Hadoop 集群 > NameNodesDataNodesYARN> 单击监视器。
  3. 将鼠标悬停在显示名称旁边的三横杠图标上,然后单击编辑
  4. 编辑Hadoop 监视器页面的配置文件下,单击铅笔图标以编辑默认阈值配置文件,或单击(+)图标在字段字段和 可用性旁边添加新配置文件。  
  5. 定义所需指标的值并保存您的更改。

相关文章