Hadoop 监控性能指标
从单个控制台查看基于故障卷和缓存块的 Top N DataNode、NameNode 的磁盘使用率和平均负载;以及活跃、过期和宕机的 DataNode 等信息。设置阈值,当指标超过配置值时收到通知。
Linux 监控代理程序成功安装后,整个 Hadoop 集群将被自动发现,并在服务器 > Hadoop > 集群名称下添加用于监控。如果您正在监控多个集群,可以在 Hadoop > Hadoop 集群下找到它们的列表。
健康仪表板
健康仪表板提供整个 Hadoop 集群的当前状态。仪表板中显示的其他指标包括基于故障卷和缓存块的 Top N DataNode、卷故障、堆内存统计数据、文件统计数据等。仪表板每分钟自动刷新一次;如需立即刷新,请单击页面标题旁边的刷新图标。以 PDF 文件分享 此报表,或创建永久链接以公开分享此仪表板。

DataNode、NameNode 和 YARN 的性能指标
您可以查看每个已添加监控的 DataNode、NameNode 和 YARN 的性能指标。前往服务器 > Hadoop > 单击 Hadoop 集群 > NameNodes/DataNodes/YARN > 单击监视器。
确保在每个 DataNode、NameNode 和 YARN 中安装 Site24x7 Linux 监控代理程序,以查看以下性能指标。如果您尚未安装代理程序扩展,请前往服务器 > Hadoop > 单击集群 > NameNodes/DataNodes/YARN > 单击监视器 > 服务器监控扩展 > 立即开始 > 选择监视器 > 单击提交。
NameNode 指标:
在每个 NameNode 中安装 Linux 监控代理程序后,您可以在摘要标签页下查看每个 NameNode 监视器的以下指标(服务器 > Hadoop > 单击 Hadoop 集群 > NameNodes):
| 参数 | 描述 |
| DFS Capacity Utilization | DFS 集群中已用和可用空间 |
| File Statistics | NameNode 跟踪的文件总数 |
| Heap Memory Statistics | 当前已用和已提交的堆内存(GB) |
| Non Heap Memory Statistics | 当前已用和已提交的非堆内存(GB) |
| Total Load | DataNode 上并发文件访问连接数 |
| DFS Replication | 待复制块数、待调度复制块数以及已调度复制块数 |
| Log Statistics | 致命、错误和警告日志的数量 |
| Thread Statistics | 新建、运行中、阻塞、等待和已终止线程数 |
| Block Statistics | 已分配块总数、缺失块数以及副本损坏的块数 |
| 节点 - 列出与此集群关联的所有节点。 | |
| CPU (%) | NameNode 的 CPU 使用率 |
| Memory (%) | NameNode 的内存使用率 |
| Disk Used (%) | NameNode 的磁盘使用率 |
| Status | NameNode 的可用性——正常或宕机 |
| Install Agent | 在尚未安装扩展的节点中安装 Linux 监控代理程序扩展。 |
DataNode 指标:
在每个 DataNode 中安装 Linux 监控代理程序后,您可以在摘要 标签页下查看每个 DataNode 监视器的以下指标(服务器 > Hadoop > 单击 Hadoop 集群 > DataNodes):
| 参数 | 描述 |
| DFS Used | DataNode 使用的 DFS 空间 |
| Cache Used | 已缓存的块数 |
| Heap Memory Statistics | 当前已用和已提交的堆内存(GB) |
| Non Heap Memory Statistics | 当前已用和已提交的非堆内存(GB) |
| Failed Cache Blocks | 缓存失败的块数 |
| Failed Uncache Blocks | 从缓存中移除失败的块数 |
| Log Statistics | 致命、错误和警告日志的数量 |
| Thread Statistics | 新建、运行中、阻塞、等待和已终止线程数 |
| Failed Volume | 故障卷数。尽管故障卷不会影响 Hadoop 集群性能,但了解故障原因仍很重要。 |
YARN 指标:
在每个 YARN 中安装 Linux 监控代理程序后,您可以在摘要标签页下查看每个 YARN 监视器的以下指标(服务器 > Hadoop > 单击 Hadoop 集群 > YARN):
| 参数 | 描述 |
| Apps Submitted/Completed | 已完成的应用程序数量 |
| Apps Running/Pending | 正在运行和等待中的应用程序数量 |
| Apps Failed/Killed | 失败和已终止的应用程序数量 |
| Node Details | 不健康、丢失、活跃、已停用和已重启的节点管理器数量 |
| Memory Stats | 已预留、已分配和可用内存的总量 |
| Virtual Cores | 已预留和已分配的虚拟核心数量 |
| Container Stats | 已分配和已预留的容器数量 |
如果您的 Hadoop 集群中运行了 ZooKeeper,请在 ZooKeeper 应用程序中安装 Linux 代理程序,并对其进行监控。了解更多。
添加阈值与可用性配置文件
将 NameNode、DataNode 和 YARN 监视器成功添加到 Site24x7 账户后,您可以为上述每个指标定义阈值,并在发生违规时收到通知。按照以下步骤添加/编辑阈值配置文件:
- 登录 Site24x7,前往服务器 > Hadoop。
- 单击 Hadoop 集群 > NameNodes/DataNodes/YARN > 单击监视器。
- 将光标悬停在显示名称旁边的汉堡图标上,然后单击编辑。
- 在编辑 Hadoop 监视器页面,在配置文件下,单击阈值与可用性字段旁边的铅笔图标来编辑默认阈值配置文件,或单击 (+) 图标添加新配置文件。
- 为所需指标定义值并保存更改。
相关文章
- 添加 Hadoop 监视器
- 添加 Linux 监视器 | Linux 监控性能指标
- 添加 Docker | 添加 SMART 磁盘 | 添加插件
- 服务器监控架构
- 其他支持的操作系统平台: Windows | FreeBSD | OS X
