Hadoop 监控性能指标

从单个控制台查看基于故障卷和缓存块的 Top N DataNode、NameNode 的磁盘使用率和平均负载；以及活跃、过期和宕机的 DataNode 等信息。设置阈值，当指标超过配置值时收到通知。

Linux 监控代理程序成功安装后，整个 Hadoop 集群将被自动发现，并在服务器 > Hadoop > 集群名称下添加用于监控。如果您正在监控多个集群，可以在 Hadoop > Hadoop 集群下找到它们的列表。

健康仪表板
NameNode 指标
DataNode 指标
YARN 指标
添加阈值与可用性配置文件

健康仪表板

健康仪表板提供整个 Hadoop 集群的当前状态。仪表板中显示的其他指标包括基于故障卷和缓存块的 Top N DataNode、卷故障、堆内存统计数据、文件统计数据等。仪表板每分钟自动刷新一次；如需立即刷新，请单击页面标题旁边的刷新图标。以 PDF 文件分享此报表，或创建永久链接以公开分享此仪表板。

DataNode、NameNode 和 YARN 的性能指标

您可以查看每个已添加监控的 DataNode、NameNode 和 YARN 的性能指标。前往服务器 > Hadoop > 单击 Hadoop 集群 > NameNodes/DataNodes/YARN > 单击监视器。

注意

确保在每个 DataNode、NameNode 和 YARN 中安装 Site24x7 Linux 监控代理程序，以查看以下性能指标。如果您尚未安装代理程序扩展，请前往服务器 > Hadoop > 单击集群 > NameNodes/DataNodes/YARN > 单击监视器 > 服务器监控扩展 > 立即开始 > 选择监视器 > 单击提交。

NameNode 指标：

在每个 NameNode 中安装 Linux 监控代理程序后，您可以在摘要标签页下查看每个 NameNode 监视器的以下指标（服务器 > Hadoop > 单击 Hadoop 集群 > NameNodes）：

参数	描述
DFS Capacity Utilization	DFS 集群中已用和可用空间
File Statistics	NameNode 跟踪的文件总数
Heap Memory Statistics	当前已用和已提交的堆内存（GB）
Non Heap Memory Statistics	当前已用和已提交的非堆内存（GB）
Total Load	DataNode 上并发文件访问连接数
DFS Replication	待复制块数、待调度复制块数以及已调度复制块数
Log Statistics	致命、错误和警告日志的数量
Thread Statistics	新建、运行中、阻塞、等待和已终止线程数
Block Statistics	已分配块总数、缺失块数以及副本损坏的块数
节点 - 列出与此集群关联的所有节点。
CPU (%)	NameNode 的 CPU 使用率
Memory (%)	NameNode 的内存使用率
Disk Used (%)	NameNode 的磁盘使用率
Status	NameNode 的可用性——正常或宕机
Install Agent	在尚未安装扩展的节点中安装 Linux 监控代理程序扩展。

DataNode 指标：

在每个 DataNode 中安装 Linux 监控代理程序后，您可以在摘要标签页下查看每个 DataNode 监视器的以下指标（服务器 > Hadoop > 单击 Hadoop 集群 > DataNodes）：

参数	描述
DFS Used	DataNode 使用的 DFS 空间
Cache Used	已缓存的块数
Heap Memory Statistics	当前已用和已提交的堆内存（GB）
Non Heap Memory Statistics	当前已用和已提交的非堆内存（GB）
Failed Cache Blocks	缓存失败的块数
Failed Uncache Blocks	从缓存中移除失败的块数
Log Statistics	致命、错误和警告日志的数量
Thread Statistics	新建、运行中、阻塞、等待和已终止线程数
Failed Volume	故障卷数。尽管故障卷不会影响 Hadoop 集群性能，但了解故障原因仍很重要。

YARN 指标：

在每个 YARN 中安装 Linux 监控代理程序后，您可以在摘要标签页下查看每个 YARN 监视器的以下指标（服务器 > Hadoop > 单击 Hadoop 集群 > YARN）：

参数	描述
Apps Submitted/Completed	已完成的应用程序数量
Apps Running/Pending	正在运行和等待中的应用程序数量
Apps Failed/Killed	失败和已终止的应用程序数量
Node Details	不健康、丢失、活跃、已停用和已重启的节点管理器数量
Memory Stats	已预留、已分配和可用内存的总量
Virtual Cores	已预留和已分配的虚拟核心数量
Container Stats	已分配和已预留的容器数量

注意

如果您的 Hadoop 集群中运行了 ZooKeeper，请在 ZooKeeper 应用程序中安装 Linux 代理程序，并对其进行监控。了解更多。

添加阈值与可用性配置文件

将 NameNode、DataNode 和 YARN 监视器成功添加到 Site24x7 账户后，您可以为上述每个指标定义阈值，并在发生违规时收到通知。按照以下步骤添加/编辑阈值配置文件：

登录 Site24x7，前往服务器 > Hadoop。
单击 Hadoop 集群 > NameNodes/DataNodes/YARN > 单击监视器。
将光标悬停在显示名称旁边的汉堡图标上，然后单击编辑。
在编辑 Hadoop 监视器页面，在配置文件下，单击阈值与可用性字段旁边的铅笔图标来编辑默认阈值配置文件，或单击 (+) 图标添加新配置文件。
为所需指标定义值并保存更改。

本页内容

健康仪表板

DataNode、NameNode 和 YARN 的性能指标

添加阈值与可用性配置文件

Hadoop 监控性能指标

健康仪表板

DataNode、NameNode 和 YARN 的性能指标

添加阈值与可用性配置文件

相关文章