Google Cloud Anthos Cluster 监控

用途

Google Cloud Anthos 监控对于确保应用程序和基础架构的性能、可靠性和效率至关重要。例如：

容器重启次数过高表明容器存在不稳定性，例如频繁崩溃或配置错误。
跟踪节点可分配内存有助于确保最佳资源分配，并防止内存饱和，从而避免应用程序宕机或性能下降。
监控总 CPU 核心数和可分配 CPU 核心数，有助于确保应用程序拥有充足的处理能力，并在必要时规划资源扩展。

通过监控 Google Cloud Anthos，您可以主动排查问题、优化资源使用，并提升基于 Anthos 环境的整体性能。请按照本帮助手册中的说明设置 Anthos 监控。

设置与配置

在配置新 Google Cloud 监视器时添加 Anthos Cluster

如果您尚未配置 Google Cloud 监视器，请按照以下步骤添加一个：

1. 登录 Site24x7。
2. 前往 Cloud > GCP > Add GCP Monitor 或 Admin > Cloud Monitoring > Google Cloud Platform (GCP) 。
3. 提供唯一的显示名称以便识别。
4. 上传服务账号 JSON 文件以授权 Site24x7 执行资源发现。
5. 在选择要监控的资源列表中选择 Anthos Cluster。
6. 选择现有的通知配置文件、用户告警组、标签和 IT 自动化，或新建。您也可以将 Site24x7 告警与首选的第三方服务集成。
7. 点击 Start GCP Monitoring。
将 Anthos Cluster 添加到现有 Google Cloud 监视器

如果您已为该服务账号配置了 Google Cloud 监视器，可按照以下步骤添加 Google Anthos Cluster：

1. 登录 Site24x7。
2. 前往 Cloud > GCP ，选择您的 Google Cloud 监视器，然后进入 Google Cloud 监视器左侧窗格上的任意仪表板。
3. 点击汉堡包图标（），然后选择编辑。
4. 在打开的编辑 GCP Monitor页面中，从选择要监控的资源下拉列表中选择 Anthos Cluster，然后点击保存。
5. 配置成功后，前往 Cloud > GCP > Anthos Cluster，即可查看已发现的 Anthos Cluster 资源。

注意： 发现新 GCP 资源需要 15 至 30 分钟。

轮询频率

Site24x7 的 Google Anthos Cluster 监视器每分钟采集一次指标数据，每五分钟采集一次 Google Anthos Cluster 资源的状态。

支持的指标

指标名称	描述	统计	单位
摘要标签页
Distribution	表示集群中各节点之间的工作负载分布情况。	文本	N/A
Cluster Type	指定集群是混合、本地还是基于云的环境。	文本	N/A
Pod Volume Utilization	跟踪 Pod 使用的存储空间百分比。	百分比	平均值
Container Restart Count	统计容器重启次数，反映稳定性问题。	计数	总计
Node CPU Allocatable Utilization	显示分配给工作负载的 CPU 资源百分比。	百分比	平均值
Node Memory Allocatable Utilization	反映节点上分配给工作负载的内存百分比。	百分比	平均值
Node CPU Total Cores	表示节点上可用的 CPU 核心总数。	计数	平均值
Node CPU Allocatable Cores	显示预留系统资源后分配给工作负载的 CPU 核心数。	计数	平均值
Node Memory Usage	跟踪节点的实际内存使用量。	字节	平均值
Node Total Memory	表示节点的总内存容量。	字节	平均值
Node Allocatable Memory	衡量预留系统进程后可供工作负载使用的内存。	字节	平均值
Pod Bytes Transmitted	表示 Pod 通过网络发送的数据量。	字节	平均值
Pod Bytes Received	反映 Pod 通过网络接收的数据量。	字节	平均值
容器指标
Container Restart Count	跟踪容器重启次数，反映潜在问题。	计数	平均值
Container Limit Cores	指定分配给容器的最大 CPU 核心数。	计数	平均值
Container Request Cores	表示容器运行所请求的 CPU 核心数。	计数	平均值
Container CPU Usage Time	衡量容器消耗的 CPU 时间总量。	秒	平均值
Container CPU Utilization	反映容器使用的 CPU 资源百分比。	百分比	平均值
Container Memory Limit	表示分配给容器的最大内存量。	字节	平均值
Container Memory Request	显示容器运行所请求的内存量。	字节	平均值
Container Memory Usage	跟踪容器的实际内存使用量。	字节	平均值
Container Memory Limit Utilization	显示容器使用的内存限额百分比。	百分比	平均值
Container Memory Request Utilization	反映容器使用的已请求内存百分比。	百分比	平均值
Container Page Faults	统计容器遇到的内存页面错误次数。	计数	平均值
Container Ephemeral Storage	跟踪容器使用的临时存储量。	字节	平均值
Container Uptime	衡量容器不间断运行的总时长。	秒	平均值
节点指标
Node Total Cores	表示节点上可用的 CPU 核心总数。	计数	平均值
Node Allocatable Cores	表示预留系统资源后分配给工作负载的 CPU 核心数。	计数	平均值
Node CPU Usage Time	衡量节点消耗的 CPU 时间总量。	秒	平均值
Node CPU Allocatable Utilization	反映可分配 CPU 资源的使用百分比。	百分比	平均值
Node Memory Usage	跟踪节点的实际内存使用量。	字节	平均值
Node Total Memory	表示节点的总内存容量。	字节	平均值
Node Allocatable Memory	表示预留系统进程后可供工作负载使用的内存。	字节	平均值
Node Memory Allocatable Utilization	显示可分配内存的使用百分比。	字节	平均值
Node Ephemeral Storage Usage	跟踪节点使用的临时存储量。	字节	平均值
Node Total Ephemeral Storage	表示节点的临时存储总容量。	字节	平均值
Node Allocatable Ephemeral Storage	表示预留系统资源后可供工作负载使用的临时存储。	字节	平均值
Node Total Inodes	表示节点上可用的 inode 总数。	计数	平均值
Node Free Inodes	跟踪节点上剩余的空闲 inode 数量。	计数	平均值
Node Bytes Transmitted	表示节点通过网络发送的数据量。	计数	平均值
Node Bytes Received	反映节点通过网络接收的数据量。	计数	平均值
Pod Bytes Transmitted	跟踪 Pod 通过网络发送的数据量。	计数	平均值
Pod Bytes Received	衡量 Pod 通过网络接收的数据量。	计数	平均值
Pod Volume Capacity	表示分配给 Pod 的总存储容量。	字节	平均值
Pod Volume Usage	跟踪 Pod 实际使用的存储空间。	字节	平均值
Pod Volume Utilization	反映 Pod 使用的存储容量百分比。	字节	平均值
配置详情
Cluster Region	指定集群部署的地理区域。	值	N/A
Cluster Type	指示集群是混合、本地还是基于云的环境。	值	N/A
Created Time	记录资源创建时的时间戳。	值	N/A
Distribution	表示集群中各节点之间的工作负载分布情况。	值	N/A
Enable Component	标识集群中已启用的组件。	值	N/A
Entity Tag	提供资源版本的唯一标识符。	值	N/A
Evaluation Mode	指示用于策略评估的模式。	值	N/A
Fleet Membership	显示集群在舰队中的成员资格，便于统一管理。	值	N/A
Kubernetes Version	显示集群上运行的 Kubernetes 版本。	值	N/A
Monitoring Config	详述集群监控的配置信息。	值	N/A
Name	指定资源的名称。	值	N/A
Platform Version	指示托管集群的平台版本。	值	N/A
Project ID	标识与资源关联的 Google Cloud 项目。	值	N/A
State	反映资源当前的运行状态。	值	N/A
Updated Time	记录上次更新资源时的时间戳。	值	N/A
资产清单
Monitor Licensing Category	显示此监视器的许可类别。	值	N/A
Monitor Group(s) Associated	显示关联的监视器组。	值	N/A
Threshold and Availability Profile	显示关联的阈值配置文件。	值	N/A
Notification Profile	显示关联的通知配置文件。	值	N/A
User Alert Group	显示关联的用户告警组。	值	N/A
Monitor Creation Time	显示此监视器的创建时间。	值	N/A
Last Modified Time	显示此监视器上次修改的时间。	值	N/A

阈值配置

- 全局配置
1. 在 Site24x7 Web 客户端中，从左侧导航栏进入管理部分。
2. 从左侧窗格选择配置文件，然后通过下拉菜单选择阈值和可用性。
3. 点击右上角的添加阈值配置文件。
4. 对于监视器类型，选择 GCP Anthos Cluster。
5. 现在您可以为上述所有指标设置阈值。
- 监视器级别配置
  1. 在 Site24x7 Web 客户端中，前往 Cloud > GCP > Anthos Cluster。
  2. 选择要设置阈值的资源，然后点击汉堡包（）图标。
  3. 选择编辑，进入 编辑 GCP Anthos Cluster Monitor 页面。
  4. 使用阈值和可用性选项为指标设置阈值。
  5. 您还可以在属性级别配置 IT 自动化。

IT 自动化

Site24x7 提供一套专属的 IT 自动化工具，可自动解决性能下降问题。这些工具主动响应事件，无需等待人工干预。IT 自动化工具能够自动执行重复性任务，并自动修复阈值违规问题。告警引擎持续评估已设置阈值的系统事件，并在发生违规时执行映射的自动化操作。

如何为监视器配置 IT 自动化

配置规则

逐一编辑多个监视器以关联不同的监视器组或添加不同的标签可能是一个繁琐的过程。借助 Site24x7 的配置规则，您可以自动化监控资源的配置设置。此外，Site24x7 还允许您创建自定义规则，持续跟踪配置变更并实现理想的配置状态。

如何添加配置规则

摘要

摘要标签页将按时间维度呈现上述指标的性能数据。查看摘要的步骤：

前往 Cloud > GCP > GCP Anthos Cluster。
选择一个资源。
点击摘要标签页。

报表

利用我们直观深入的报表，获取已监控资源各参数的详细数据，提升服务性能。

查看 Google Anthos Cluster 资源报表的步骤：

前往左侧导航栏中的报表部分。
从左侧菜单中选择 Google Anthos Cluster。
您可以查看单个监视器的可用性摘要报表、性能报表和资产清单报表；也可以查看所有 Google Anthos Cluster 监视器的摘要报表、可用性摘要报表、健康趋势报表和性能报表。

您也可以从 GCP Anthos Cluster 监视器的摘要标签页获取报表：

点击摘要标签页。
点击可用性获取监视器的可用性摘要报表。
点击任意图表标题也可查看监视器的性能报表。

本页内容

用途

设置与配置

轮询频率

监控指标

设置告警阈值

IT 自动化

配置规则

摘要

报表

Google Cloud Anthos Cluster 监控

用途

设置与配置

轮询频率

支持的指标

阈值配置

IT 自动化

配置规则

摘要

报表

相关链接