帮助手册

Hadoop 监控性能指标

从单个控制台查看基于故障卷和缓存块的 Top N DataNode、NameNode 的磁盘使用率和平均负载;以及活跃、过期和宕机的 DataNode 等信息。设置阈值,当指标超过配置值时收到通知。 

Linux 监控代理程序成功安装后,整个 Hadoop 集群将被自动发现,并在服务器 > Hadoop > 集群名称下添加用于监控。如果您正在监控多个集群,可以在 Hadoop > Hadoop 集群下找到它们的列表。

健康仪表板

健康仪表板提供整个 Hadoop 集群的当前状态。仪表板中显示的其他指标包括基于故障卷和缓存块的 Top N DataNode、卷故障、堆内存统计数据、文件统计数据等。仪表板每分钟自动刷新一次;如需立即刷新,请单击页面标题旁边的刷新图标。以 PDF 文件分享 此报表,或创建永久链接以公开分享此仪表板。 

DataNode、NameNode 和 YARN 的性能指标

您可以查看每个已添加监控的 DataNode、NameNode 和 YARN 的性能指标。前往服务器 > Hadoop > 单击 Hadoop 集群 > NameNodes/DataNodes/YARN > 单击监视器。

注意

确保在每个 DataNode、NameNode 和 YARN 中安装 Site24x7 Linux 监控代理程序,以查看以下性能指标。如果您尚未安装代理程序扩展,请前往服务器 > Hadoop > 单击集群 > NameNodes/DataNodes/YARN > 单击监视器 > 服务器监控扩展 > 立即开始 > 选择监视器 > 单击提交

NameNode 指标:

在每个 NameNode 中安装 Linux 监控代理程序后,您可以在摘要标签页下查看每个 NameNode 监视器的以下指标(服务器 > Hadoop > 单击 Hadoop 集群 > NameNodes):

参数 描述
DFS Capacity Utilization DFS 集群中已用和可用空间 
File Statistics NameNode 跟踪的文件总数 
Heap Memory Statistics 当前已用和已提交的堆内存(GB) 
Non Heap Memory Statistics 当前已用和已提交的非堆内存(GB)
Total Load DataNode 上并发文件访问连接数
DFS Replication 待复制块数、待调度复制块数以及已调度复制块数
Log Statistics 致命、错误和警告日志的数量 
Thread Statistics  新建、运行中、阻塞、等待和已终止线程数
Block Statistics  已分配块总数、缺失块数以及副本损坏的块数 
节点 - 列出与此集群关联的所有节点。
CPU (%) NameNode 的 CPU 使用率 
Memory (%)  NameNode 的内存使用率 
Disk Used (%)  NameNode 的磁盘使用率 
Status  NameNode 的可用性——正常或宕机
Install Agent 在尚未安装扩展的节点中安装 Linux 监控代理程序扩展。 

DataNode 指标:

在每个 DataNode 中安装 Linux 监控代理程序后,您可以在摘要 标签页下查看每个 DataNode 监视器的以下指标(服务器 > Hadoop > 单击 Hadoop 集群 > DataNodes):

参数 描述
DFS Used  DataNode 使用的 DFS 空间 
Cache Used  已缓存的块数 
Heap Memory Statistics 当前已用和已提交的堆内存(GB) 
Non Heap Memory Statistics  当前已用和已提交的非堆内存(GB) 
Failed Cache Blocks  缓存失败的块数 
Failed Uncache Blocks 从缓存中移除失败的块数
Log Statistics  致命、错误和警告日志的数量  
Thread Statistics 新建、运行中、阻塞、等待和已终止线程数 
Failed Volume 故障卷数。尽管故障卷不会影响 Hadoop 集群性能,但了解故障原因仍很重要。  

YARN 指标:

在每个 YARN 中安装 Linux 监控代理程序后,您可以在摘要标签页下查看每个 YARN 监视器的以下指标(服务器 > Hadoop > 单击 Hadoop 集群 > YARN):

参数 描述
Apps Submitted/Completed 已完成的应用程序数量 
Apps Running/Pending 正在运行和等待中的应用程序数量 
Apps Failed/Killed 失败和已终止的应用程序数量 
Node Details 不健康、丢失、活跃、已停用和已重启的节点管理器数量 
Memory Stats 已预留、已分配和可用内存的总量
Virtual Cores 已预留和已分配的虚拟核心数量
Container Stats 已分配和已预留的容器数量
注意

如果您的 Hadoop 集群中运行了 ZooKeeper,请在 ZooKeeper 应用程序中安装 Linux 代理程序,并对其进行监控。了解更多

添加阈值与可用性配置文件

将 NameNode、DataNode 和 YARN 监视器成功添加到 Site24x7 账户后,您可以为上述每个指标定义阈值,并在发生违规时收到通知。按照以下步骤添加/编辑阈值配置文件:

  1. 登录 Site24x7,前往服务器 > Hadoop
  2. 单击 Hadoop 集群 > NameNodes/DataNodes/YARN > 单击监视器。
  3. 将光标悬停在显示名称旁边的汉堡图标上,然后单击编辑
  4. 编辑 Hadoop 监视器页面,在配置文件下,单击阈值与可用性字段旁边的铅笔图标来编辑默认阈值配置文件,或单击 (+) 图标添加新配置文件。  
  5. 为所需指标定义值并保存更改。

本文档对您有帮助吗?

您愿意帮助我们改进文档吗?请告诉我们哪些方面可以做得更好。


很抱歉本文档未能让您满意。我们希望了解可以从哪些方面改进您的体验。


感谢您抽出时间分享反馈。我们将利用您的反馈来改进在线帮助资源。

短链接已复制!