帮助手册

Google Cloud Anthos Cluster 监控

用途

Google Cloud Anthos 监控对于确保应用程序和基础架构的性能、可靠性和效率至关重要。例如:

  • 容器重启次数过高表明容器存在不稳定性,例如频繁崩溃或配置错误。
  • 跟踪节点可分配内存有助于确保最佳资源分配,并防止内存饱和,从而避免应用程序宕机或性能下降。
  • 监控总 CPU 核心数和可分配 CPU 核心数,有助于确保应用程序拥有充足的处理能力,并在必要时规划资源扩展。

通过监控 Google Cloud Anthos,您可以主动排查问题、优化资源使用,并提升基于 Anthos 环境的整体性能。请按照本帮助手册中的说明设置 Anthos 监控。

设置与配置

  • 在配置新 Google Cloud 监视器时添加 Anthos Cluster

如果您尚未配置 Google Cloud 监视器,请按照以下步骤添加一个:

    1. 登录 Site24x7。
    2. 前往 Cloud > GCP > Add GCP MonitorAdmin > Cloud Monitoring > Google Cloud Platform (GCP)
    3. 提供唯一的显示名称以便识别。
    4. 上传服务账号 JSON 文件 以授权 Site24x7 执行资源发现。
    5. 选择要监控的资源列表中选择 Anthos Cluster
    6. 选择现有的通知配置文件用户告警组标签IT 自动化,或新建。您也可以将 Site24x7 告警与首选的第三方服务集成。
    7. 点击 Start GCP Monitoring
  • 将 Anthos Cluster 添加到现有 Google Cloud 监视器

如果您已为该服务账号配置了 Google Cloud 监视器,可按照以下步骤添加 Google Anthos Cluster:

    1. 登录 Site24x7。
    2. 前往 Cloud > GCP ,选择您的 Google Cloud 监视器,然后进入 Google Cloud 监视器左侧窗格上的任意仪表板。
    3. 点击汉堡包图标(),然后选择编辑
    4. 在打开的编辑 GCP Monitor页面中,从选择要监控的资源下拉列表中选择 Anthos Cluster,然后点击保存
    5. 配置成功后,前往 Cloud > GCP > Anthos Cluster,即可查看已发现的 Anthos Cluster 资源。

注意: 发现新 GCP 资源需要 15 至 30 分钟。

轮询频率

Site24x7 的 Google Anthos Cluster 监视器每分钟采集一次指标数据,每五分钟采集一次 Google Anthos Cluster 资源的状态。

支持的指标

指标名称

描述

统计

单位

摘要标签页

Distribution

表示集群中各节点之间的工作负载分布情况。

文本

N/A

Cluster Type

指定集群是混合、本地还是基于云的环境。

文本

N/A

Pod Volume Utilization

跟踪 Pod 使用的存储空间百分比。

百分比

平均值

Container Restart Count

统计容器重启次数,反映稳定性问题。

计数

总计

Node CPU Allocatable Utilization

显示分配给工作负载的 CPU 资源百分比。

百分比

平均值

Node Memory Allocatable Utilization

反映节点上分配给工作负载的内存百分比。

百分比

平均值

Node CPU Total Cores

表示节点上可用的 CPU 核心总数。

计数

平均值

Node CPU Allocatable Cores

显示预留系统资源后分配给工作负载的 CPU 核心数。

计数

平均值

Node Memory Usage

跟踪节点的实际内存使用量。

字节

平均值

Node Total Memory

表示节点的总内存容量。

字节

平均值

Node Allocatable Memory

衡量预留系统进程后可供工作负载使用的内存。

字节

平均值

Pod Bytes Transmitted

表示 Pod 通过网络发送的数据量。

字节

平均值

Pod Bytes Received

反映 Pod 通过网络接收的数据量。

字节

平均值

容器指标

Container Restart Count

跟踪容器重启次数,反映潜在问题。

计数

平均值

Container Limit Cores

指定分配给容器的最大 CPU 核心数。

计数

平均值

Container Request Cores

表示容器运行所请求的 CPU 核心数。

计数

平均值

Container CPU Usage Time

衡量容器消耗的 CPU 时间总量。

平均值

Container CPU Utilization

反映容器使用的 CPU 资源百分比。

百分比

平均值

Container Memory Limit

表示分配给容器的最大内存量。

字节

平均值

Container Memory Request

显示容器运行所请求的内存量。

字节

平均值

Container Memory Usage

跟踪容器的实际内存使用量。

字节

平均值

Container Memory Limit Utilization

显示容器使用的内存限额百分比。

百分比

平均值

Container Memory Request Utilization

反映容器使用的已请求内存百分比。

百分比

平均值

Container Page Faults

统计容器遇到的内存页面错误次数。

计数

平均值

Container Ephemeral Storage

跟踪容器使用的临时存储量。

字节

平均值

Container Uptime

衡量容器不间断运行的总时长。

平均值

节点指标

Node Total Cores

表示节点上可用的 CPU 核心总数。

计数

平均值

Node Allocatable Cores

表示预留系统资源后分配给工作负载的 CPU 核心数。

计数

平均值

Node CPU Usage Time

衡量节点消耗的 CPU 时间总量。

平均值

Node CPU Allocatable Utilization

反映可分配 CPU 资源的使用百分比。

百分比

平均值

Node Memory Usage

跟踪节点的实际内存使用量。

字节

平均值

Node Total Memory

表示节点的总内存容量。

字节

平均值

Node Allocatable Memory

表示预留系统进程后可供工作负载使用的内存。

字节

平均值

Node Memory Allocatable Utilization

显示可分配内存的使用百分比。

字节

平均值

Node Ephemeral Storage Usage

跟踪节点使用的临时存储量。

字节

平均值

Node Total Ephemeral Storage

表示节点的临时存储总容量。

字节

平均值

Node Allocatable Ephemeral Storage

表示预留系统资源后可供工作负载使用的临时存储。

字节

平均值

Node Total Inodes

表示节点上可用的 inode 总数。

计数

平均值

Node Free Inodes

跟踪节点上剩余的空闲 inode 数量。

计数

平均值

Node Bytes Transmitted

表示节点通过网络发送的数据量。

计数

平均值

Node Bytes Received

反映节点通过网络接收的数据量。

计数

平均值

Pod Bytes Transmitted

跟踪 Pod 通过网络发送的数据量。

计数

平均值

Pod Bytes Received

衡量 Pod 通过网络接收的数据量。

计数

平均值

Pod Volume Capacity

表示分配给 Pod 的总存储容量。

字节

平均值

Pod Volume Usage

跟踪 Pod 实际使用的存储空间。

字节

平均值

Pod Volume Utilization

反映 Pod 使用的存储容量百分比。

字节

平均值

配置详情

Cluster Region

指定集群部署的地理区域。

N/A

Cluster Type

指示集群是混合、本地还是基于云的环境。

N/A

Created Time

记录资源创建时的时间戳。

N/A

Distribution

表示集群中各节点之间的工作负载分布情况。

N/A

Enable Component

标识集群中已启用的组件。

N/A

Entity Tag

提供资源版本的唯一标识符。

N/A

Evaluation Mode

指示用于策略评估的模式。

N/A

Fleet Membership

显示集群在舰队中的成员资格,便于统一管理。

N/A

Kubernetes Version

显示集群上运行的 Kubernetes 版本。

N/A

Monitoring Config

详述集群监控的配置信息。

N/A

Name

指定资源的名称。

N/A

Platform Version

指示托管集群的平台版本。

N/A

Project ID

标识与资源关联的 Google Cloud 项目。

N/A

State

反映资源当前的运行状态。

N/A

Updated Time

记录上次更新资源时的时间戳。

N/A

资产清单

Monitor Licensing Category

显示此监视器的许可类别。

N/A

Monitor Group(s) Associated

显示关联的监视器组。

N/A

Threshold and Availability Profile

显示关联的阈值配置文件。

N/A

Notification Profile

显示关联的通知配置文件。

N/A

User Alert Group

显示关联的用户告警组。

N/A

Monitor Creation Time

显示此监视器的创建时间。

N/A

Last Modified Time

显示此监视器上次修改的时间。

N/A

阈值配置

    • 全局配置
    1. 在 Site24x7 Web 客户端中,从左侧导航栏进入管理部分。
    2. 从左侧窗格选择配置文件,然后通过下拉菜单选择阈值和可用性
    3. 点击右上角的添加阈值配置文件
    4. 对于监视器类型,选择 GCP Anthos Cluster
    5. 现在您可以为上述所有指标设置阈值。
    • 监视器级别配置
      1. 在 Site24x7 Web 客户端中,前往 Cloud > GCP > Anthos Cluster
      2. 选择要设置阈值的资源,然后点击汉堡包()图标
      3. 选择编辑,进入 编辑 GCP Anthos Cluster Monitor 页面。
      4. 使用阈值和可用性选项为指标设置阈值。
      5. 您还可以在属性级别配置 IT 自动化

IT 自动化

Site24x7 提供一套专属的 IT 自动化工具,可自动解决性能下降问题。这些工具主动响应事件,无需等待人工干预。IT 自动化工具能够自动执行重复性任务,并自动修复阈值违规问题。告警引擎持续评估已设置阈值的系统事件,并在发生违规时执行映射的自动化操作。

如何为监视器配置 IT 自动化

配置规则

逐一编辑多个监视器以关联不同的监视器组或添加不同的标签可能是一个繁琐的过程。借助 Site24x7 的配置规则,您可以自动化监控资源的配置设置。此外,Site24x7 还允许您创建自定义规则,持续跟踪配置变更并实现理想的配置状态。

如何添加配置规则

摘要

摘要 标签页将按时间维度呈现上述指标的性能数据。查看摘要的步骤:

  1. 前往 Cloud > GCP > GCP Anthos Cluster
  2. 选择一个资源。
  3. 点击摘要标签页。

报表

利用我们直观深入的报表,获取已监控资源各参数的详细数据,提升服务性能。


查看 Google Anthos Cluster 资源报表的步骤:

  1. 前往左侧导航栏中的报表部分。
  2. 从左侧菜单中选择 Google Anthos Cluster
  3. 您可以查看单个监视器的可用性摘要报表性能报表资产清单报表;也可以查看所有 Google Anthos Cluster 监视器的摘要报表可用性摘要报表健康趋势报表性能报表

您也可以从 GCP Anthos Cluster 监视器的摘要标签页获取报表:

  1. 点击摘要标签页。
  2. 点击可用性获取监视器的可用性摘要报表。
  3. 点击任意图表标题也可查看监视器的性能报表。

本文档对您有帮助吗?

您愿意帮助我们改进文档吗?请告诉我们哪些方面可以做得更好。


很抱歉本文档未能让您满意。我们希望了解可以从哪些方面改进您的体验。


感谢您抽出时间分享反馈。我们将利用您的反馈来改进在线帮助资源。

短链接已复制!