Google Kubernetes Engine 监控集成
通过 Site24x7 的集成,监控您的 Google Kubernetes Engine 及其节点和应用。
配置步骤
- 在配置新的 Google Cloud 监视器时添加 Google Kubernetes Engine
如果您尚未配置 Google Cloud 监视器,请按照以下步骤添加:
- 将 Google Kubernetes Engine 添加到现有 Google Cloud 监视器
如果您已为服务账号配置了 Google Cloud 监视器,可以按照以下步骤添加 Google Kubernetes Engine:
- 登录您的 Site24x7 账户。
- 依次导航至云 > GCP,选择您的 GCP 监视器。
- 点击服务视图旁边的汉堡图标
,选择编辑,进入编辑 GCP 监视器页面。 - 在编辑 GCP 监视器页面中,从选择监控资源列表中选择 Google Kubernetes Engine,然后点击保存。
- 配置成功后,依次导航至云 > GCP > Google Kubernetes Engine,即可查看已发现的 Google Kubernetes Engine 资源。
发现新的 GCP 资源大约需要五分钟。
轮询频率
Site24x7 的 Google Kubernetes Engine 监视器每五分钟采集一次指标数据,每分钟采集一次 Google Kubernetes Engine 资源的状态。
支持的指标
| 指标名称 | 描述 | 统计方式 | 单位 |
|---|---|---|---|
| Container CPU Usage Time | 容器的 CPU 核心限制 | Average | Second |
| Container Limit Cores | 通过网络接收的字节增量,按 API 方法名称和响应码分组 | Average | Count |
| Container CPU Limit Utilization | 实例当前使用的 CPU 限制比例。该值不超过 1,因为使用量不能超过限制。 | Average | Count |
| Container Request Cores | 容器请求的 CPU 核心总数 | Total | Count |
| Container CPU Request Utilization | 实例当前使用的请求 CPU 比例。该值可以大于 1,因为使用量可以超过请求量。 | Average | Count |
| Container Ephemeral Storage Limit | 本地临时存储限制总量 | Total | Bytes |
| Container Ephemeral Storage Request | 本地临时存储请求总量 | Average | Count |
| Container Ephemeral Storage Usage | 本地临时存储使用总量 | Total | Bytes |
| Container Memory Limit | 容器的内存限制总量 | Total | Bytes |
| Container Memory Limit Utilization | 实例当前使用的内存限制比例。该值不超过 1,因为使用量不能超过限制。 | Average | Count |
| Container Page Faults | 按类型划分的页面错误总数 | Total | Count |
| Container Memory Request | 容器的内存请求总量 | Total | Bytes |
| Container Memory Request Utilization | 实例当前使用的请求内存比例。该值可以大于 1,因为使用量可以超过请求量。 | Average | Count |
| Container Memory Usage | 内存使用总量 | Total | Bytes |
| Container Restart Count | 容器重启的总次数 | Total | Count |
| Container Uptime | 容器运行的平均时间(秒) | Average | Seconds |
| Container Accelerator Duty Cycle | 在过去采样周期(10 秒)内加速器主动处理的时间百分比。值为 0 到 100 之间的整数。 | Total | Percentage |
| Container Accelerator Memory Total | 加速器内存总量 | Total | Bytes |
| Container Accelerator Memory Used | 加速器内存总量 | Total | Bytes |
| Container Request Accelerators | 容器请求的加速器设备总数 | Total | Count |
| DCGM 指标 | |||
| Overall GPU Utilization | 当前 GPU 资源的使用率百分比 | Average | Percentage |
| Overall GPU Temperature Model | 系统中所有 GPU 的平均温度 | Average | Celsius |
| GPU Utilization | 单个 GPU 的具体利用率 | Average | Percentage |
| FrameBuffer Memory Utilization | 当前使用的帧缓冲内存百分比 | Average | Bytes |
| GPU Temperature Model | 单个 GPU 的平均温度 | Average | Celsius |
| SM Clock Speed | GPU 内流式多处理器的时钟速度 | Average | MHz |
| Memory Temperature Model | 系统中内存模块的平均温度 | Average | Celsius |
| Total Power Usage Model | GPU 的总功耗 | Total | Watts |
| Memory Clock Speed | GPU 内存的时钟速度 | Average | MHz |
| Graphic Engine Active | 图形引擎主动处理任务的时间百分比 | Average | Percentage |
| Memory Bandwidth Utilization | GPU 内存中数据传输的速率 | Average | Bytes |
| SM Utilization | GPU 中流式多处理器的利用率 | Average | Percentage |
| Tensor Utilization | GPU 中张量核心的利用率 | Average | Percentage |
| FP64 Utilization | GPU 中 64 位浮点运算的利用率 | Average | Percentage |
| FP32 Utilization | GPU 中 32 位浮点运算的利用率 | Average | Percentage |
| FP16 Utilization | GPU 中 16 位浮点运算的利用率 | Average | Percentage |
要在 GKE 集群中启用 NVIDIA Data Center GPU Manager(DCGM)指标的采集,请确保满足以下前提条件:
- GKE 版本:集群必须运行 GKE 1.30.1-gke.1204000 或更高版本。
- 系统指标采集:启用系统指标采集。
- Prometheus 采集:启用 Google Cloud 托管的 Prometheus 托管采集服务。
- GPU 驱动程序:节点池必须使用 GKE 托管的 GPU 驱动程序,即在创建节点池时,"--gpu-driver-version"参数必须使用"default"或"latest"。
- 性能分析指标:对于 GKE 1.32.0-gke.1764000 或更高版本,所有 GKE 支持的 GPU 类型均可采集性能分析指标;对于更早的 GKE 版本,性能分析指标仅支持 NVIDIA H100 80GB GPU。
只有满足这些要求后,GCP 才允许您在 GKE 集群中采集 NVIDIA DCGM 指标。
阈值配置
- 全局配置
- 在 Site24x7 Web 客户端中,点击左侧导航栏中的管理。
- 从左侧面板中选择配置文件,然后从下拉菜单中选择阈值与可用性。
- 点击右上角的添加阈值配置文件。
- 在监视器类型中选择 Google Kubernetes Engine。
- 现在即可为上述指标设置阈值。
- 监视器级别配置
- 在 Site24x7 Web 客户端中,依次导航至云 > GCP > Google Kubernetes Engine。
- 选择您要设置阈值的资源,然后点击汉堡图标
。 - 选择编辑,进入编辑 Google Kubernetes Engine 监视器页面。
- 您可以使用阈值与可用性选项为指标设置阈值。
- 您也可以在属性级别配置 IT 自动化。
IT 自动化
借助 Site24x7 的 IT 自动化工具,您可以简化运维流程、减少人工操作,并主动解决性能问题。Site24x7 中的告警引擎会根据您设置的阈值持续评估系统事件。一旦发生违规,与该事件关联的自动化操作将被触发,确保及时修复并将对 IT 基础设施的影响降至最低。
配置规则
借助 Site24x7 的配置规则,您可以优化监控设置、节省时间并高效管理监控资源。同时将不同的监视器组关联或为多个监视器添加特定标签,无需逐一手动编辑每个监视器,从而节省宝贵的时间和精力。
概览
概览选项卡将按时间维度呈现上述指标的性能数据。查看概览的步骤:
- 依次导航至云 > GCP > Google Kubernetes Engine。
- 选择一个资源。
- 点击概览选项卡。
配置详情
配置详情选项卡提供应用实例配置的详细信息。获取配置详情的步骤:
- 依次导航至云 > GCP > Google Kubernetes Engine。
- 选择一个资源。
- 点击配置详情选项卡。
报表
通过我们丰富的报表,深入了解已监控资源的各项参数数据,提升服务性能。
查看 Google Kubernetes Engine 资源报表的步骤:
- 点击左侧导航栏中的报表。
- 从左侧菜单中选择 Google Kubernetes Engine。
- 您可以查看某个选定监视器的可用性概要报表、性能报表和资产报表,或查看所有 Google Kubernetes Engine 监视器的概要报表、可用性概要报表、健康趋势报表和性能报表。
您也可以从 Google Kubernetes Engine 监视器的概览选项卡获取报表:
- 点击概览选项卡。
- 点击可用性,获取监视器的可用性概要报表。
- 点击任意图表标题,还可查看监视器的性能报表。
