Google Kubernetes Engine 监控集成

通过 Site24x7 的集成，监控您的 Google Kubernetes Engine 及其节点和应用。

配置步骤

在配置新的 Google Cloud 监视器时添加 Google Kubernetes Engine

如果您尚未配置 Google Cloud 监视器，请按照以下步骤添加：
1. 登录您的 Site24x7 账户。
2. 依次导航至云 > GCP > 添加 GCP 监视器，或管理 > 云监控 > Google Cloud Platform（GCP）。
3. 提供唯一的显示名称以便识别。
4. 上传服务账号 JSON 文件，以对 Site24x7 进行身份验证，从而执行资源发现。
5. 从选择监控资源列表中选择 Google Kubernetes Engine。
6. 选择已有的通知配置文件、用户告警组、标签和 IT 自动化模板，或新建上述配置。您也可以将 Site24x7 告警与您偏好的第三方服务集成。
7. 点击开始 GCP 监控。
将 Google Kubernetes Engine 添加到现有 Google Cloud 监视器

如果您已为服务账号配置了 Google Cloud 监视器，可以按照以下步骤添加 Google Kubernetes Engine：
1. 登录您的 Site24x7 账户。
2. 依次导航至云 > GCP，选择您的 GCP 监视器。
3. 点击服务视图旁边的汉堡图标 ，选择编辑，进入编辑 GCP 监视器页面。
4. 在编辑 GCP 监视器页面中，从选择监控资源列表中选择 Google Kubernetes Engine，然后点击保存。
5. 配置成功后，依次导航至云 > GCP > Google Kubernetes Engine，即可查看已发现的 Google Kubernetes Engine 资源。

说明

发现新的 GCP 资源大约需要五分钟。

轮询频率

Site24x7 的 Google Kubernetes Engine 监视器每五分钟采集一次指标数据，每分钟采集一次 Google Kubernetes Engine 资源的状态。

支持的指标

指标名称	描述	统计方式	单位
Container CPU Usage Time	容器的 CPU 核心限制	Average	Second
Container Limit Cores	通过网络接收的字节增量，按 API 方法名称和响应码分组	Average	Count
Container CPU Limit Utilization	实例当前使用的 CPU 限制比例。该值不超过 1，因为使用量不能超过限制。	Average	Count
Container Request Cores	容器请求的 CPU 核心总数	Total	Count
Container CPU Request Utilization	实例当前使用的请求 CPU 比例。该值可以大于 1，因为使用量可以超过请求量。	Average	Count
Container Ephemeral Storage Limit	本地临时存储限制总量	Total	Bytes
Container Ephemeral Storage Request	本地临时存储请求总量	Average	Count
Container Ephemeral Storage Usage	本地临时存储使用总量	Total	Bytes
Container Memory Limit	容器的内存限制总量	Total	Bytes
Container Memory Limit Utilization	实例当前使用的内存限制比例。该值不超过 1，因为使用量不能超过限制。	Average	Count
Container Page Faults	按类型划分的页面错误总数	Total	Count
Container Memory Request	容器的内存请求总量	Total	Bytes
Container Memory Request Utilization	实例当前使用的请求内存比例。该值可以大于 1，因为使用量可以超过请求量。	Average	Count
Container Memory Usage	内存使用总量	Total	Bytes
Container Restart Count	容器重启的总次数	Total	Count
Container Uptime	容器运行的平均时间（秒）	Average	Seconds
Container Accelerator Duty Cycle	在过去采样周期（10 秒）内加速器主动处理的时间百分比。值为 0 到 100 之间的整数。	Total	Percentage
Container Accelerator Memory Total	加速器内存总量	Total	Bytes
Container Accelerator Memory Used	加速器内存总量	Total	Bytes
Container Request Accelerators	容器请求的加速器设备总数	Total	Count
DCGM 指标
Overall GPU Utilization	当前 GPU 资源的使用率百分比	Average	Percentage
Overall GPU Temperature Model	系统中所有 GPU 的平均温度	Average	Celsius
GPU Utilization	单个 GPU 的具体利用率	Average	Percentage
FrameBuffer Memory Utilization	当前使用的帧缓冲内存百分比	Average	Bytes
GPU Temperature Model	单个 GPU 的平均温度	Average	Celsius
SM Clock Speed	GPU 内流式多处理器的时钟速度	Average	MHz
Memory Temperature Model	系统中内存模块的平均温度	Average	Celsius
Total Power Usage Model	GPU 的总功耗	Total	Watts
Memory Clock Speed	GPU 内存的时钟速度	Average	MHz
Graphic Engine Active	图形引擎主动处理任务的时间百分比	Average	Percentage
Memory Bandwidth Utilization	GPU 内存中数据传输的速率	Average	Bytes
SM Utilization	GPU 中流式多处理器的利用率	Average	Percentage
Tensor Utilization	GPU 中张量核心的利用率	Average	Percentage
FP64 Utilization	GPU 中 64 位浮点运算的利用率	Average	Percentage
FP32 Utilization	GPU 中 32 位浮点运算的利用率	Average	Percentage
FP16 Utilization	GPU 中 16 位浮点运算的利用率	Average	Percentage

DCGM 指标监控的前提条件

要在 GKE 集群中启用 NVIDIA Data Center GPU Manager（DCGM）指标的采集，请确保满足以下前提条件：

GKE 版本：集群必须运行 GKE 1.30.1-gke.1204000 或更高版本。
系统指标采集：启用系统指标采集。
Prometheus 采集：启用 Google Cloud 托管的 Prometheus 托管采集服务。
GPU 驱动程序：节点池必须使用 GKE 托管的 GPU 驱动程序，即在创建节点池时，"--gpu-driver-version"参数必须使用"default"或"latest"。
性能分析指标：对于 GKE 1.32.0-gke.1764000 或更高版本，所有 GKE 支持的 GPU 类型均可采集性能分析指标；对于更早的 GKE 版本，性能分析指标仅支持 NVIDIA H100 80GB GPU。

只有满足这些要求后，GCP 才允许您在 GKE 集群中采集 NVIDIA DCGM 指标。

阈值配置

全局配置
1. 在 Site24x7 Web 客户端中，点击左侧导航栏中的管理。
2. 从左侧面板中选择配置文件，然后从下拉菜单中选择阈值与可用性。
3. 点击右上角的添加阈值配置文件。
4. 在监视器类型中选择 Google Kubernetes Engine。
5. 现在即可为上述指标设置阈值。
监视器级别配置
1. 在 Site24x7 Web 客户端中，依次导航至云 > GCP > Google Kubernetes Engine。
2. 选择您要设置阈值的资源，然后点击汉堡图标 。
3. 选择编辑，进入编辑 Google Kubernetes Engine 监视器页面。
4. 您可以使用阈值与可用性选项为指标设置阈值。
5. 您也可以在属性级别配置 IT 自动化。

IT 自动化

借助 Site24x7 的 IT 自动化工具，您可以简化运维流程、减少人工操作，并主动解决性能问题。Site24x7 中的告警引擎会根据您设置的阈值持续评估系统事件。一旦发生违规，与该事件关联的自动化操作将被触发，确保及时修复并将对 IT 基础设施的影响降至最低。

如何为监视器配置 IT 自动化

配置规则

借助 Site24x7 的配置规则，您可以优化监控设置、节省时间并高效管理监控资源。同时将不同的监视器组关联或为多个监视器添加特定标签，无需逐一手动编辑每个监视器，从而节省宝贵的时间和精力。

如何添加配置规则

概览

概览选项卡将按时间维度呈现上述指标的性能数据。查看概览的步骤：

依次导航至云 > GCP > Google Kubernetes Engine。
选择一个资源。
点击概览选项卡。

配置详情

配置详情选项卡提供应用实例配置的详细信息。获取配置详情的步骤：

依次导航至云 > GCP > Google Kubernetes Engine。
选择一个资源。
点击配置详情选项卡。

报表

通过我们丰富的报表，深入了解已监控资源的各项参数数据，提升服务性能。

查看 Google Kubernetes Engine 资源报表的步骤：

点击左侧导航栏中的报表。
从左侧菜单中选择 Google Kubernetes Engine。
您可以查看某个选定监视器的可用性概要报表、性能报表和资产报表，或查看所有 Google Kubernetes Engine 监视器的概要报表、可用性概要报表、健康趋势报表和性能报表。

您也可以从 Google Kubernetes Engine 监视器的概览选项卡获取报表：

点击概览选项卡。
点击可用性，获取监视器的可用性概要报表。
点击任意图表标题，还可查看监视器的性能报表。