帮助手册

Google Kubernetes Engine 监控集成

通过 Site24x7 的集成,监控您的 Google Kubernetes Engine 及其节点和应用。

配置步骤

  • 在配置新的 Google Cloud 监视器时添加 Google Kubernetes Engine

    如果您尚未配置 Google Cloud 监视器,请按照以下步骤添加:

    1. 登录您的 Site24x7 账户。
    2. 依次导航至 > GCP > 添加 GCP 监视器,或管理 > 云监控 > Google Cloud Platform(GCP)
    3. 提供唯一的显示名称以便识别。
    4. 上传服务账号 JSON 文件,以对 Site24x7 进行身份验证,从而执行资源发现。
    5. 选择监控资源列表中选择 Google Kubernetes Engine
    6. 选择已有的通知配置文件用户告警组标签IT 自动化模板,或新建上述配置。您也可以将 Site24x7 告警与您偏好的第三方服务集成。
    7. 点击开始 GCP 监控
  • 将 Google Kubernetes Engine 添加到现有 Google Cloud 监视器

    如果您已为服务账号配置了 Google Cloud 监视器,可以按照以下步骤添加 Google Kubernetes Engine:

    1. 登录您的 Site24x7 账户。
    2. 依次导航至 > GCP,选择您的 GCP 监视器。
    3. 点击服务视图旁边的汉堡图标 Hamburger icon,选择编辑,进入编辑 GCP 监视器页面。
    4. 编辑 GCP 监视器页面中,从选择监控资源列表中选择 Google Kubernetes Engine,然后点击保存
    5. 配置成功后,依次导航至 > GCP > Google Kubernetes Engine,即可查看已发现的 Google Kubernetes Engine 资源。
说明

发现新的 GCP 资源大约需要五分钟。

轮询频率

Site24x7 的 Google Kubernetes Engine 监视器每五分钟采集一次指标数据,每分钟采集一次 Google Kubernetes Engine 资源的状态。

支持的指标

指标名称描述统计方式单位
Container CPU Usage Time 容器的 CPU 核心限制 Average Second
Container Limit Cores 通过网络接收的字节增量,按 API 方法名称和响应码分组 Average Count
Container CPU Limit Utilization 实例当前使用的 CPU 限制比例。该值不超过 1,因为使用量不能超过限制。 Average Count
Container Request Cores 容器请求的 CPU 核心总数 Total Count
Container CPU Request Utilization 实例当前使用的请求 CPU 比例。该值可以大于 1,因为使用量可以超过请求量。 Average Count
Container Ephemeral Storage Limit 本地临时存储限制总量 Total Bytes
Container Ephemeral Storage Request 本地临时存储请求总量 Average Count
Container Ephemeral Storage Usage 本地临时存储使用总量 Total Bytes
Container Memory Limit 容器的内存限制总量 Total Bytes
Container Memory Limit Utilization 实例当前使用的内存限制比例。该值不超过 1,因为使用量不能超过限制。 Average Count
Container Page Faults 按类型划分的页面错误总数 Total Count
Container Memory Request 容器的内存请求总量 Total Bytes
Container Memory Request Utilization 实例当前使用的请求内存比例。该值可以大于 1,因为使用量可以超过请求量。 Average Count
Container Memory Usage 内存使用总量 Total Bytes
Container Restart Count 容器重启的总次数 Total Count
Container Uptime 容器运行的平均时间(秒) Average Seconds
Container Accelerator Duty Cycle 在过去采样周期(10 秒)内加速器主动处理的时间百分比。值为 0 到 100 之间的整数。 Total Percentage
Container Accelerator Memory Total 加速器内存总量 Total Bytes
Container Accelerator Memory Used 加速器内存总量 Total Bytes
Container Request Accelerators 容器请求的加速器设备总数 Total Count
DCGM 指标
Overall GPU Utilization 当前 GPU 资源的使用率百分比 Average Percentage
Overall GPU Temperature Model 系统中所有 GPU 的平均温度 Average Celsius
GPU Utilization 单个 GPU 的具体利用率 Average Percentage
FrameBuffer Memory Utilization 当前使用的帧缓冲内存百分比 Average Bytes
GPU Temperature Model 单个 GPU 的平均温度 Average Celsius
SM Clock Speed GPU 内流式多处理器的时钟速度 Average MHz
Memory Temperature Model 系统中内存模块的平均温度 Average Celsius
Total Power Usage Model GPU 的总功耗 Total Watts
Memory Clock Speed GPU 内存的时钟速度 Average MHz
Graphic Engine Active 图形引擎主动处理任务的时间百分比 Average Percentage
Memory Bandwidth Utilization GPU 内存中数据传输的速率 Average Bytes
SM Utilization GPU 中流式多处理器的利用率 Average Percentage
Tensor Utilization GPU 中张量核心的利用率 Average Percentage
FP64 Utilization GPU 中 64 位浮点运算的利用率 Average Percentage
FP32 Utilization GPU 中 32 位浮点运算的利用率 Average Percentage
FP16 Utilization GPU 中 16 位浮点运算的利用率 Average Percentage
DCGM 指标监控的前提条件

要在 GKE 集群中启用 NVIDIA Data Center GPU Manager(DCGM)指标的采集,请确保满足以下前提条件:

  • GKE 版本:集群必须运行 GKE 1.30.1-gke.1204000 或更高版本。
  • 系统指标采集:启用系统指标采集。
  • Prometheus 采集:启用 Google Cloud 托管的 Prometheus 托管采集服务。
  • GPU 驱动程序:节点池必须使用 GKE 托管的 GPU 驱动程序,即在创建节点池时,"--gpu-driver-version"参数必须使用"default"或"latest"。
  • 性能分析指标:对于 GKE 1.32.0-gke.1764000 或更高版本,所有 GKE 支持的 GPU 类型均可采集性能分析指标;对于更早的 GKE 版本,性能分析指标仅支持 NVIDIA H100 80GB GPU。

只有满足这些要求后,GCP 才允许您在 GKE 集群中采集 NVIDIA DCGM 指标。

阈值配置

  • 全局配置
    1. 在 Site24x7 Web 客户端中,点击左侧导航栏中的管理
    2. 从左侧面板中选择配置文件,然后从下拉菜单中选择阈值与可用性
    3. 点击右上角的添加阈值配置文件
    4. 监视器类型中选择 Google Kubernetes Engine
    5. 现在即可为上述指标设置阈值。
  • 监视器级别配置
    1. 在 Site24x7 Web 客户端中,依次导航至 > GCP > Google Kubernetes Engine
    2. 选择您要设置阈值的资源,然后点击汉堡图标 Hamburger icon
    3. 选择编辑,进入编辑 Google Kubernetes Engine 监视器页面。
    4. 您可以使用阈值与可用性选项为指标设置阈值。
    5. 您也可以在属性级别配置 IT 自动化

IT 自动化

借助 Site24x7 的 IT 自动化工具,您可以简化运维流程、减少人工操作,并主动解决性能问题。Site24x7 中的告警引擎会根据您设置的阈值持续评估系统事件。一旦发生违规,与该事件关联的自动化操作将被触发,确保及时修复并将对 IT 基础设施的影响降至最低。

如何为监视器配置 IT 自动化

配置规则

借助 Site24x7 的配置规则,您可以优化监控设置、节省时间并高效管理监控资源。同时将不同的监视器组关联或为多个监视器添加特定标签,无需逐一手动编辑每个监视器,从而节省宝贵的时间和精力。

如何添加配置规则

概览

概览选项卡将按时间维度呈现上述指标的性能数据。查看概览的步骤:

  1. 依次导航至 > GCP > Google Kubernetes Engine
  2. 选择一个资源。
  3. 点击概览选项卡。

配置详情

配置详情选项卡提供应用实例配置的详细信息。获取配置详情的步骤:

  1. 依次导航至 > GCP > Google Kubernetes Engine
  2. 选择一个资源。
  3. 点击配置详情选项卡。

报表

通过我们丰富的报表,深入了解已监控资源的各项参数数据,提升服务性能。

查看 Google Kubernetes Engine 资源报表的步骤:

  1. 点击左侧导航栏中的报表
  2. 从左侧菜单中选择 Google Kubernetes Engine
  3. 您可以查看某个选定监视器的可用性概要报表、性能报表和资产报表,或查看所有 Google Kubernetes Engine 监视器的概要报表、可用性概要报表、健康趋势报表和性能报表。

您也可以从 Google Kubernetes Engine 监视器的概览选项卡获取报表:

  1. 点击概览选项卡。
  2. 点击可用性,获取监视器的可用性概要报表。
  3. 点击任意图表标题,还可查看监视器的性能报表。

相关内容

本文档对您有帮助吗?

您愿意帮助我们改进文档吗?请告诉我们哪些方面可以做得更好。


很抱歉本文档未能让您满意。我们希望了解可以从哪些方面改进您的体验。


感谢您抽出时间分享反馈。我们将利用您的反馈来改进在线帮助资源。

短链接已复制!