帮助手册

Amazon Elastic Kubernetes Service 监控集成

Amazon Elastic Kubernetes Service(Amazon EKS)使您能够在 AWS 上轻松部署、管理和扩展使用 Kubernetes 的容器化应用程序。借助 Kubernetes,您可以大规模自动化容器化应用程序的部署、扩缩和管理。

概述

Site24x7 与 Amazon Elastic Kubernetes Service(EKS)的集成提供以下六种监视器,帮助您有效监控 EKS 环境。

  • EKS 集群:监控整个 EKS 集群的整体健康状况、性能和可用性。
  • EKS 节点:追踪 EKS 集群中每个节点的状态和资源使用情况。
  • EKS 命名空间:观察特定命名空间内的活动和资源使用情况,实现更精细化的管理。
  • EKS Pod:监控各 Pod 的性能和状态,确保其在集群中正常运行。
  • EKS 容器:监控 Pod 中容器的健康状况和资源消耗。
  • EKS 服务:监控 EKS 集群上运行的服务的性能和可用性,确保其可访问且响应正常。

使用场景

Amazon EKS 是一项完全托管的 Kubernetes 服务,让您可以在 Amazon Elastic Compute Cloud(EC2)和 AWS Fargate 上运行应用程序。假设您有一个容器化应用程序运行在与 EKS 监视器关联的集群中。将 Amazon EKS 与 Site24x7 集成后,将自动创建 EKS 集群EKS 命名空间EKS 节点监视器。如果集群或节点出现宕机或问题,您可以通过为集群级别和节点级别监视器配置的告警来识别和追踪问题。

Site24x7 与 Amazon EKS 集成的优势

Site24x7 与 Amazon Elastic Kubernetes Service(EKS)的集成使您能够在集群、节点和命名空间级别监控您的 Amazon EKS

通过 Site24x7 与 Amazon EKS 的集成,您可以:

  • 实现对受监控资源的全栈可见性。
  • 配置阈值,并在集群或节点宕机时接收告警。
  • 通过容器洞察以图形方式获取节点和 Pod 性能指标的详细概览。

设置与配置

1. 如果尚未完成,请通过以下任一方式在您的 AWS 账户与 Site24x7 的 AWS 账户之间启用对 AWS 资源的访问:

  • 将 Site24x7 创建为 IAM 用户。
  • 创建跨账户 IAM 角色。 了解更多

2. 在 集成 AWS 账户页面,选中 EKS 集群、EKS 节点、EKS 命名空间EKS PodEKS 容器EKS 服务复选框。 了解更多

前提条件

策略与权限

Site24x7 使用多种 Amazon EKS API 来收集有关集群的信息。请将 AWS 托管策略 ReadOnlyAccess 分配给 Site24x7 实体(IAM 用户或 IAM 角色),以帮助 Site24x7 收集指标和元数据。如果需要分配自定义策略,请确保策略 JSON 中包含以下读取级别操作。 了解更多

  • "eks:DescribeCluster",
  • "eks:ListClusters",
  • "cloudwatch:ListMetrics"

轮询频率

Site24x7 按照设定的轮询频率收集集群、命名空间和节点的指标数据,范围从一分钟到一天。 了解更多

集群级别指标

指标名称 描述 统计方式 单位
cluster_failed_node_count 集群中失败节点的数量 最大值 节点数
cluster_node_count 集群中的节点总数 最大值 节点数
namespace_number_of_running_pods 命名空间中运行的 Pod 数量 最大值 Pod 数
service_number_of_running_pods 服务中运行的 Pod 数量 最大值 Pod 数
node_number_of_running_pods 节点中运行的 Pod 数量 最大值 Pod 数
node_number_of_running_containers 节点中运行的容器数量 最大值 容器数
node_cpu_usage_total 所有节点使用的 CPU 最大值 单位
node_cpu_limit 分配给节点的 CPU 最大值 单位
node_cpu_reserved_capacity 节点预留的 CPU 平均值 百分比
node_cpu_utilization 节点使用的 CPU 平均值 百分比
node_filesystem_utilization 节点上的文件系统容量 平均值 百分比
node_memory_limit 分配给节点的内存 最大值 MB
node_memory_working_set 节点工作集使用的内存 平均值 MB
node_memory_reserved_capacity 节点预留的内存 平均值 百分比
node_memory_utilization 节点使用的内存 平均值 百分比
node_network_total_bytes 节点的总网络流量 求和 MB/秒
pod_cpu_reserved_capacity Pod 预留的 CPU 平均值 百分比
pod_cpu_utilization Pod 使用的 CPU 平均值 百分比
pod_cpu_utilization_over_pod_limit 超出 Pod 限制的 CPU 使用率 平均值、最小值和最大值 百分比
pod_memory_reserved_capacity Pod 预留的内存 平均值 百分比
pod_memory_utilization Pod 使用的内存 平均值 百分比
pod_memory_utilization_over_pod_limit 超出 Pod 限制的内存使用率 平均值、最小值和最大值 百分比
pod_network_rx_bytes Pod 接收的总字节数 求和 MB/秒
pod_network_tx_bytes Pod 发送的总字节数 求和 MB/秒

节点级别指标

指标名称 描述 统计方式 单位
node_number_of_running_pods 节点中运行的 Pod 数量 最大值 Pod 数
node_number_of_running_containers 节点中运行的容器数量 最大值 容器数
node_cpu_reserved_capacity 节点预留的 CPU 平均值 百分比
node_cpu_utilization 节点使用的 CPU 平均值 百分比
node_filesystem_utilization 节点上的文件系统容量 平均值 百分比
node_memory_reserved_capacity 节点预留的内存 平均值 百分比
node_memory_utilization 节点使用的内存 平均值 百分比
node_network_total_bytes 节点的总网络流量 求和 MB/秒

命名空间级别指标

指标名称 描述 统计方式 单位
namespace_number_of_running_pods 命名空间中运行的 Pod 数量 最大值 Pod 数
pod_cpu_utilization Pod 使用的 CPU 平均值 百分比
pod_cpu_utilization_over_pod_limit 超出 Pod 限制的 CPU 使用率 平均值、最小值和最大值 百分比
pod_memory_utilization Pod 使用的内存 平均值 百分比
pod_memory_utilization_over_pod_limit 超出 Pod 限制的内存使用率 平均值、最小值和最大值 百分比
pod_network_rx_bytes Pod 接收的总字节数 求和 MB/秒
pod_network_tx_bytes Pod 发送的总字节数 求和 MB/秒

Pod 级别指标

指标名称 描述 统计方式 单位
pod_cpu_reserved_capacity Pod 预留的 CPU 平均值 毫核
pod_cpu_utilization Pod 使用的 CPU 平均值 百分比
pod_cpu_utilization_over_pod_limit 超出 Pod 限制的 CPU 使用率 平均值、最小值和最大值 百分比
pod_memory_reserved_capacity Pod 预留的内存 平均值 字节
pod_memory_utilization Pod 使用的内存 平均值 百分比
pod_memory_utilization_over_pod_limit 超出 Pod 限制的内存使用率 平均值、最小值和最大值 百分比
pod_network_rx_bytes Pod 接收的总字节数 求和 MB/秒
pod_network_tx_bytes Pod 发送的总字节数 求和 MB/秒
pod_number_of_container_restarts 容器重启次数 最大值 容器数
pod_cpu_request Pod 的 CPU 请求量。 最大值 毫核
pod_memory_request Pod 的内存请求量。 最大值 字节
pod_cpu_limit Pod 中容器定义的 CPU 上限。 最大值 毫核
pod_memory_limit Pod 中容器定义的内存上限。 最大值 字节
pod_status_failed 表示 Pod 中所有容器均已终止。 最大值 计数
pod_status_ready 表示 Pod 中所有容器均已就绪。 最大值 计数
pod_status_running 表示 Pod 中所有容器均在运行。 最大值 计数
pod_status_scheduled 表示 Pod 已被调度到某个节点。 最大值 计数
pod_status_unknown 表示无法获取 Pod 的状态。 最大值 计数
pod_status_pending 表示 Pod 已被集群接受,但一个或多个容器尚未就绪。 最大值 计数
pod_status_succeeded 表示 Pod 中所有容器均已成功终止,且不会重启。 最大值 计数
pod_number_of_containers 报告 Pod 规范中定义的容器数量。 最大值 计数
pod_number_of_running_containers 报告 Pod 中当前处于运行状态的容器数量。 最大值 计数
pod_container_status_terminated 报告 Pod 中处于已终止状态的容器数量。 最大值 计数
pod_container_status_running 报告 Pod 中处于运行状态的容器数量。 最大值 计数
pod_container_status_waiting 报告 Pod 中处于等待状态的容器数量。 最大值 计数
pod_interface_network_rx_dropped Pod 网络接口接收后被丢弃的数据包数量。 求和 MB/秒
pod_interface_network_tx_dropped Pod 待发送但被丢弃的数据包数量。 求和 MB/秒

容器级别指标

指标名称 描述 统计方式 单位
container_cpu_utilization 容器使用的 CPU 单元百分比。 平均值 百分比
container_cpu_utilization_over_container_limit 容器相对于容器上限使用的 CPU 单元百分比。 平均值 百分比
container_memory_utilization 容器使用的内存单元百分比。 平均值 百分比
container_memory_utilization_over_container_limit 容器相对于容器上限使用的内存单元百分比。 平均值 字节/秒
container_memory_failures_total 容器发生的内存分配失败次数。 平均值 MB/秒
container_filesystem_usage 容器文件系统当前使用的磁盘空间量。 平均值 字节
container_filesystem_available 容器文件系统当前可用的磁盘空间量。 平均值 字节
container_filesystem_utilization 容器文件系统中已用磁盘空间占总可用磁盘空间的百分比。 平均值 MB/秒

服务级别指标

CloudWatch 指标 描述 统计方式 单位
service_number_of_running_pods 在集群中运行该服务或这些服务的 Pod 数量。 最大值 计数
pod_cpu_utilization Pod 使用的 CPU 单元百分比。 平均值 百分比
pod_cpu_utilization_over_pod_limit Pod 相对于 Pod 上限使用的 CPU 单元百分比。 平均值、最小值和最大值 百分比
pod_memory_utilization Pod 当前使用的内存百分比。 平均值 百分比
pod_memory_utilization_over_pod_limit Pod 相对于 Pod 上限使用的内存百分比。 平均值、最小值和最大值 百分比
pod_network_rx_bytes Pod 每秒通过网络接收的字节数。 求和 MB/秒
pod_network_tx_bytes Pod 每秒通过网络发送的字节数。 求和 MB/秒

阈值配置

前往 Admin > 配置文件 > 阈值和可用性 (+) > 选择监视器类型为 EKS 集群/EKS 节点/EKS 命名空间。您可以为上述所有指标设置阈值。此外,对于 EKS 命名空间EKS 节点监视器,您可以在阈值表单中将非活动命名空间和节点分别设置为维护状态。

EKS 监视器中的状态传播

Site24x7 的 EKS 集成包含状态传播功能,允许 EKS 节点和 EKS 命名空间监视器的告警传播到父级 EKS 集群监视器。

  • 要为节点启用传播,请前往 编辑阈值配置文件页面,将 通知节点状态变更选项设置为
  • 要为命名空间启用传播,请将 通知命名空间状态变更选项设置为

您还可以管理各子监视器的告警:

除了在集群级别启用上述选项外,还必须为各子监视器配置状态告警。只有明确配置了状态告警的子监视器才会向父监视器发送告警。

为子监视器配置状态告警:

  1. 打开 EKS 集群监视器,进入节点命名空间标签。
  2. 在子监视器的操作菜单中,点击铅笔 图标,将 跳过告警设置为
  3. 要对多个或所有子监视器批量应用此设置,请使用相应标签的阈值配置部分,批量将跳过告警设置为
注意

告警仅会在配置上述设置后发生的状态变更时触发。如果某个节点或命名空间在设置之前已经发生状态变更,则不会发送告警。此时,您可以手动更改状态,或等待下一次状态变更。

预测

预估以下 Amazon EKS 集群性能指标的未来值,为增加容量或扩展 AWS 基础设施做出明智决策。

  • 节点 CPU 使用量
  • 节点 CPU 使用率
  • 节点内存使用率
  • Pod CPU 使用率
  • Pod 内存使用率

同样,您还可以查看以下 Amazon EKS 命名空间指标的预测:

  • Pod CPU 使用率
  • Pod 内存使用率
  • 服务 CPU 使用率
  • 服务内存使用率
  • CPU 使用率
  • 内存使用率

同样,您还可以查看以下 Amazon EKS 节点指标的预测:

  • 每节点 CPU 使用率
  • 每节点内存使用率
  • 每节点网络流量

授权许可

  • 每个 EKS 集群EKS 节点EKS 命名空间监视器各消耗一个基础监视器许可证
  • EKS Pod:每五个 EKS Pod 监视器消耗一个基础监视器许可证。
  • EKS 容器:每五个 EKS 容器监视器消耗一个基础监视器许可证。
  • EKS 服务:每个 EKS 服务监视器视为一个基础监视器。

Site24x7 EKS 监控界面

各 EKS 监视器的监控数据如下所示。

EKS 集群

您可以在以下标签页中查看 Site24x7 EKS 集群监视器的数据:

摘要

通过时序图概览各资源内发生的不同事件。这些图表以百分比形式呈现 Pod 和节点级别的 CPU 使用率和内存使用率事件时间线,以及发送或接收的总字节数、文件系统容量,以及运行中的容器和 Pod 数量。所有时序图均列出平均值、最小值和最大值。

拓扑视图

拓扑视图标签提供以资源为中心的实时依赖关系图,动态追踪您的 EKS 集群资源与周边 AWS 基础设施的实时连接关系,在告警触发时加速根因定位。如果任何关联组件处于严重状态,拓扑视图中将相应标注,并显示中断原因,让您无需离开监视器页面即可精准定位故障点。与全账户拓扑视图不同,此标签将可视化范围聚焦于单个资源,直接回答:该 EKS 集群资源连接了哪些内容,以及其故障会影响什么?您可以从单个资源沿依赖链向上追溯,直至服务类型、地区和 AWS 账户层级。

节点组

节点组自动执行 Amazon EKS Kubernetes 集群节点(Amazon EC2 实例)的预置和生命周期管理。您可以在 节点组标签上查看与 EKS 监视器关联的节点组列表。仅当 EKS 集群已创建节点组时,此标签才会显示。

Fargate 配置文件

Fargate 配置文件是 Amazon EKS 集群的一部分,允许您管理哪些 Pod 在 Fargate 上启动以及如何在 Fargate 上运行。Fargate 配置文件标签显示与 EKS 监视器关联的 Fargate 配置文件列表。仅当 EKS 集群已创建 Fargate 配置文件时,此标签才会显示。

节点和命名空间详情

此处您可以查看与 Elastic Kubernetes 环境关联的节点和命名空间列表。点击某个列表项可查看该资源的性能和资源使用统计信息。您还可以通过点击操作下的铅笔图标设置阈值,并在任何服务失败时接收通知。

受监控的资源

受监控的资源标签显示与 EKS 集群关联的 EC2 实例和 EC2 Auto Scaling 组。

OIDC

OIDC 是代表集群 OpenID Connect(OIDC)身份提供者信息的对象。您可以在 OIDC 标签上查看与 EKS 集群关联的 OIDC 信息。

插件

插件是常见的操作软件(如 Amazon VPC CNI、CoreDNS 和 kube-proxy),用于扩展 Kubernetes 的操作功能。插件标签显示 EKS 集群插件列表以及与插件更新事件相关的内容。

更新历史

更新历史标签上获取 EKS 集群和节点组的配置更新记录。

日志

收集所选日志类型的 EKS 控制平面日志条目,日志从 CloudWatch 获取,并按日志流名称分类。

配置

此标签提供 EKS 的配置详情,包括资源名称、Endpoint URL、资源所在地区、资源状态、安全组、子网、VPC ID、公共访问/私有访问状态、安全组等更多信息。

EKS 节点

您可以在以下标签页中查看 EKS 节点监视器的数据:

摘要

通过时序图概览各资源内发生的不同事件。这些图表以百分比形式呈现节点级别的 CPU 使用率和内存使用率事件时间线,以及发送或接收的总字节数、文件系统容量,以及运行中的容器和 Pod 数量。所有时序图均列出平均值、最小值和最大值。

Pod

Pod 标签显示 EKS Pod 可用性详情以及 EKS Pods 部分中的 EKS Pod 监视器列表。点击任意监视器名称可查看 EKS Pod 监视器详情。

拓扑视图

拓扑视图标签提供以资源为中心的实时依赖关系图,动态追踪您的 EKS 节点资源与周边 AWS 基础设施的实时连接关系,在告警触发时加速根因定位。如果任何关联组件处于严重状态,拓扑视图中将相应标注,并显示中断原因,让您无需离开监视器页面即可精准定位故障点。与全账户拓扑视图不同,此标签将可视化范围聚焦于单个资源,直接回答:该 EKS 节点资源连接了哪些内容,以及其故障会影响什么?您可以从单个资源沿依赖链向上追溯,直至服务类型、地区和 AWS 账户层级。

Zia 预测

此标签显示预测图表,基于历史时序数据展示性能指标(资源使用情况的衡量)的未来预测点。使用 30 天历史数据预测未来 30 天的指标使用情况。

配置

获取 EKS 节点监视器的配置详情,例如实例 ID、节点名称、集群名称和实例类型。

中断

中断标签提供中断的开始时间、结束时间、持续时长及备注(如有)。

清单

从清单标签获取集群名称、节点名称、地区和监视器授权类别等详情。在此标签中根据用户设置和查看阈值与可用性配置文件以及通知配置文件。

日志报表

此标签提供 EKS 节点监视器日志状态的汇总报表,可下载为 CSV 文件。

EKS 命名空间

您可以在以下标签页中查看 EKS 命名空间监视器的数据:

摘要

通过时序图及配置详情概览各资源内发生的不同事件。所有时序图均列出平均值、最小值和最大值。

Pod

Pod 标签显示 EKS Pod 可用性详情以及 EKS Pods 部分中的 EKS Pod 监视器列表。点击任意监视器名称可查看 EKS Pod 监视器详情。

容器

容器标签显示 EKS 容器可用性详情以及 EKS 容器部分中的 EKS 容器监视器列表。点击任意监视器名称可查看 EKS 容器监视器详情。

服务

服务标签显示 EKS 服务可用性详情以及 EKS 服务部分中的 EKS 服务监视器列表。点击任意监视器名称可查看 EKS 服务监视器详情。

拓扑视图

拓扑视图标签提供以资源为中心的实时依赖关系图,动态追踪您的 EKS 命名空间资源与周边 AWS 基础设施的实时连接关系,在告警触发时加速根因定位。如果任何关联组件处于严重状态,拓扑视图中将相应标注,并显示中断原因,让您无需离开监视器页面即可精准定位故障点。与全账户拓扑视图不同,此标签将可视化范围聚焦于单个资源,直接回答:该 EKS 命名空间资源连接了哪些内容,以及其故障会影响什么?您可以从单个资源沿依赖链向上追溯,直至服务类型、地区和 AWS 账户层级。

Zia 预测

此标签显示预测图表,基于历史时序数据展示性能指标(资源使用情况的衡量)的未来预测点。使用 30 天历史数据预测未来 30 天的指标使用情况。

中断

中断标签提供中断的开始时间、结束时间、持续时长及备注(如有)。

清单

从清单标签获取集群名称、命名空间名称、地区和监视器授权类别等详情。在此标签中根据用户设置和查看阈值与可用性配置文件以及通知配置文件

日志报表

此标签提供 EKS 命名空间监视器日志状态的汇总报表,可下载为 CSV 文件。

EKS Pod

您可以在以下标签页中查看 EKS Pod 监视器的数据:

摘要

通过时序图及配置详情获取各资源内不同事件的详细信息。所有时序图均列出平均值、最小值和最大值。

容器

容器标签显示 EKS 容器可用性详情以及 EKS 容器部分中的 EKS 容器监视器列表。点击任意监视器名称可查看 EKS 容器监视器详情。

中断

中断标签提供中断的开始时间、结束时间、持续时长及备注(如有)。

清单

清单标签获取集群名称、Pod 名称、地区和监视器授权类别等详情。在此标签中根据用户设置和查看阈值与可用性配置文件以及通知配置文件

日志报表

此标签提供 EKS Pod 监视器日志状态的汇总报表,可下载为 CSV 文件。

拓扑视图

拓扑视图标签提供以资源为中心的实时依赖关系图,动态追踪您的 EKS Pod 资源与周边 AWS 基础设施的实时连接关系,在告警触发时加速根因定位。如果任何关联组件处于严重状态,拓扑视图中将相应标注,并显示中断原因,让您无需离开监视器页面即可精准定位故障点。与全账户拓扑视图不同,此标签将可视化范围聚焦于单个资源,直接回答:该 EKS Pod 资源连接了哪些内容,以及其故障会影响什么?您可以从单个资源沿依赖链向上追溯,直至服务类型、地区和 AWS 账户层级。

EKS 容器

您可以在以下标签页中查看 EKS 容器监视器的数据:

摘要

通过时序图及配置详情获取各资源内不同事件的详细信息。所有时序图均列出平均值、最小值和最大值。

中断

中断标签提供中断的开始时间、结束时间、持续时长及备注(如有)。

清单

清单标签获取集群名称、容器名称、地区和监视器授权类别等详情。在此标签中根据用户设置和查看阈值与可用性配置文件以及通知配置文件

日志报表

此标签提供 EKS 容器监视器日志状态的汇总报表,可下载为 CSV 文件。

拓扑视图

拓扑视图标签提供以资源为中心的实时依赖关系图,动态追踪您的 EKS 容器资源与周边 AWS 基础设施的实时连接关系,在告警触发时加速根因定位。如果任何关联组件处于严重状态,拓扑视图中将相应标注,并显示中断原因,让您无需离开监视器页面即可精准定位故障点。与全账户拓扑视图不同,此标签将可视化范围聚焦于单个资源,直接回答:该 EKS 容器资源连接了哪些内容,以及其故障会影响什么?您可以从单个资源沿依赖链向上追溯,直至服务类型、地区和 AWS 账户层级。

EKS 服务

您可以在以下标签页中查看 EKS 服务监视器的数据:

摘要

通过时序图及配置详情获取各资源内不同事件的详细信息。所有时序图均列出平均值、最小值和最大值。

Pod

Pod 标签显示 EKS Pod 可用性详情以及 EKS Pods 部分中的 EKS Pod 监视器列表。点击任意监视器名称可查看 EKS Pod 监视器详情。

中断

中断标签提供中断的开始时间、结束时间、持续时长及备注(如有)。

清单

从清单标签获取集群名称、服务名称、地区和监视器授权类别等详情。在此标签中根据用户设置和查看阈值与可用性配置文件以及通知配置文件

日志报表

此标签提供 EKS 服务监视器日志状态的汇总报表,可下载为 CSV 文件。

拓扑视图

拓扑视图标签提供以资源为中心的实时依赖关系图,动态追踪您的 EKS 服务资源与周边 AWS 基础设施的实时连接关系,在告警触发时加速根因定位。如果任何关联组件处于严重状态,拓扑视图中将相应标注,并显示中断原因,让您无需离开监视器页面即可精准定位故障点。与全账户拓扑视图不同,此标签将可视化范围聚焦于单个资源,直接回答:该 EKS 服务资源连接了哪些内容,以及其故障会影响什么?您可以从单个资源沿依赖链向上追溯,直至服务类型、地区和 AWS 账户层级。

本文档对您有帮助吗?

您愿意帮助我们改进文档吗?请告诉我们哪些方面可以做得更好。


很抱歉本文档未能让您满意。我们希望了解可以从哪些方面改进您的体验。


感谢您抽出时间分享反馈。我们将利用您的反馈来改进在线帮助资源。

短链接已复制!