Google Cloud Anthos Cluster 监控
用途
Google Cloud Anthos 监控对于确保应用程序和基础架构的性能、可靠性和效率至关重要。例如:
- 容器重启次数过高表明容器存在不稳定性,例如频繁崩溃或配置错误。
- 跟踪节点可分配内存有助于确保最佳资源分配,并防止内存饱和,从而避免应用程序宕机或性能下降。
- 监控总 CPU 核心数和可分配 CPU 核心数,有助于确保应用程序拥有充足的处理能力,并在必要时规划资源扩展。
通过监控 Google Cloud Anthos,您可以主动排查问题、优化资源使用,并提升基于 Anthos 环境的整体性能。请按照本帮助手册中的说明设置 Anthos 监控。
设置与配置
- 在配置新 Google Cloud 监视器时添加 Anthos Cluster
如果您尚未配置 Google Cloud 监视器,请按照以下步骤添加一个:
-
- 登录 Site24x7。
- 前往 Cloud > GCP > Add GCP Monitor 或 Admin > Cloud Monitoring > Google Cloud Platform (GCP) 。
- 提供唯一的显示名称以便识别。
- 上传服务账号 JSON 文件 以授权 Site24x7 执行资源发现。
- 在选择要监控的资源列表中选择 Anthos Cluster。
- 选择现有的通知配置文件、用户告警组、标签和 IT 自动化,或新建。您也可以将 Site24x7 告警与首选的第三方服务集成。
- 点击 Start GCP Monitoring。
- 将 Anthos Cluster 添加到现有 Google Cloud 监视器
如果您已为该服务账号配置了 Google Cloud 监视器,可按照以下步骤添加 Google Anthos Cluster:
-
- 登录 Site24x7。
- 前往 Cloud > GCP ,选择您的 Google Cloud 监视器,然后进入 Google Cloud 监视器左侧窗格上的任意仪表板。
-
点击汉堡包图标(
),然后选择编辑。 - 在打开的编辑 GCP Monitor页面中,从选择要监控的资源下拉列表中选择 Anthos Cluster,然后点击保存。
- 配置成功后,前往 Cloud > GCP > Anthos Cluster,即可查看已发现的 Anthos Cluster 资源。
注意: 发现新 GCP 资源需要 15 至 30 分钟。
轮询频率
Site24x7 的 Google Anthos Cluster 监视器每分钟采集一次指标数据,每五分钟采集一次 Google Anthos Cluster 资源的状态。
支持的指标
|
指标名称 |
描述 |
统计 |
单位 |
|
摘要标签页 |
|||
|
Distribution |
表示集群中各节点之间的工作负载分布情况。 |
文本 |
N/A |
|
Cluster Type |
指定集群是混合、本地还是基于云的环境。 |
文本 |
N/A |
|
Pod Volume Utilization |
跟踪 Pod 使用的存储空间百分比。 |
百分比 |
平均值 |
|
Container Restart Count |
统计容器重启次数,反映稳定性问题。 |
计数 |
总计 |
|
Node CPU Allocatable Utilization |
显示分配给工作负载的 CPU 资源百分比。 |
百分比 |
平均值 |
|
Node Memory Allocatable Utilization |
反映节点上分配给工作负载的内存百分比。 |
百分比 |
平均值 |
|
Node CPU Total Cores |
表示节点上可用的 CPU 核心总数。 |
计数 |
平均值 |
|
Node CPU Allocatable Cores |
显示预留系统资源后分配给工作负载的 CPU 核心数。 |
计数 |
平均值 |
|
Node Memory Usage |
跟踪节点的实际内存使用量。 |
字节 |
平均值 |
|
Node Total Memory |
表示节点的总内存容量。 |
字节 |
平均值 |
|
Node Allocatable Memory |
衡量预留系统进程后可供工作负载使用的内存。 |
字节 |
平均值 |
|
Pod Bytes Transmitted |
表示 Pod 通过网络发送的数据量。 |
字节 |
平均值 |
|
Pod Bytes Received |
反映 Pod 通过网络接收的数据量。 |
字节 |
平均值 |
|
容器指标 |
|||
|
Container Restart Count |
跟踪容器重启次数,反映潜在问题。 |
计数 |
平均值 |
|
Container Limit Cores |
指定分配给容器的最大 CPU 核心数。 |
计数 |
平均值 |
|
Container Request Cores |
表示容器运行所请求的 CPU 核心数。 |
计数 |
平均值 |
|
Container CPU Usage Time |
衡量容器消耗的 CPU 时间总量。 |
秒 |
平均值 |
|
Container CPU Utilization |
反映容器使用的 CPU 资源百分比。 |
百分比 |
平均值 |
|
Container Memory Limit |
表示分配给容器的最大内存量。 |
字节 |
平均值 |
|
Container Memory Request |
显示容器运行所请求的内存量。 |
字节 |
平均值 |
|
Container Memory Usage |
跟踪容器的实际内存使用量。 |
字节 |
平均值 |
|
Container Memory Limit Utilization |
显示容器使用的内存限额百分比。 |
百分比 |
平均值 |
|
Container Memory Request Utilization |
反映容器使用的已请求内存百分比。 |
百分比 |
平均值 |
|
Container Page Faults |
统计容器遇到的内存页面错误次数。 |
计数 |
平均值 |
|
Container Ephemeral Storage |
跟踪容器使用的临时存储量。 |
字节 |
平均值 |
|
Container Uptime |
衡量容器不间断运行的总时长。 |
秒 |
平均值 |
|
节点指标 |
|||
|
Node Total Cores |
表示节点上可用的 CPU 核心总数。 |
计数 |
平均值 |
|
Node Allocatable Cores |
表示预留系统资源后分配给工作负载的 CPU 核心数。 |
计数 |
平均值 |
|
Node CPU Usage Time |
衡量节点消耗的 CPU 时间总量。 |
秒 |
平均值 |
|
Node CPU Allocatable Utilization |
反映可分配 CPU 资源的使用百分比。 |
百分比 |
平均值 |
|
Node Memory Usage |
跟踪节点的实际内存使用量。 |
字节 |
平均值 |
|
Node Total Memory |
表示节点的总内存容量。 |
字节 |
平均值 |
|
Node Allocatable Memory |
表示预留系统进程后可供工作负载使用的内存。 |
字节 |
平均值 |
|
Node Memory Allocatable Utilization |
显示可分配内存的使用百分比。 |
字节 |
平均值 |
|
Node Ephemeral Storage Usage |
跟踪节点使用的临时存储量。 |
字节 |
平均值 |
|
Node Total Ephemeral Storage |
表示节点的临时存储总容量。 |
字节 |
平均值 |
|
Node Allocatable Ephemeral Storage |
表示预留系统资源后可供工作负载使用的临时存储。 |
字节 |
平均值 |
|
Node Total Inodes |
表示节点上可用的 inode 总数。 |
计数 |
平均值 |
|
Node Free Inodes |
跟踪节点上剩余的空闲 inode 数量。 |
计数 |
平均值 |
|
Node Bytes Transmitted |
表示节点通过网络发送的数据量。 |
计数 |
平均值 |
|
Node Bytes Received |
反映节点通过网络接收的数据量。 |
计数 |
平均值 |
|
Pod Bytes Transmitted |
跟踪 Pod 通过网络发送的数据量。 |
计数 |
平均值 |
|
Pod Bytes Received |
衡量 Pod 通过网络接收的数据量。 |
计数 |
平均值 |
|
Pod Volume Capacity |
表示分配给 Pod 的总存储容量。 |
字节 |
平均值 |
|
Pod Volume Usage |
跟踪 Pod 实际使用的存储空间。 |
字节 |
平均值 |
|
Pod Volume Utilization |
反映 Pod 使用的存储容量百分比。 |
字节 |
平均值 |
|
配置详情 |
|||
|
Cluster Region |
指定集群部署的地理区域。 |
值 |
N/A |
|
Cluster Type |
指示集群是混合、本地还是基于云的环境。 |
值 |
N/A |
|
Created Time |
记录资源创建时的时间戳。 |
值 |
N/A |
|
Distribution |
表示集群中各节点之间的工作负载分布情况。 |
值 |
N/A |
|
Enable Component |
标识集群中已启用的组件。 |
值 |
N/A |
|
Entity Tag |
提供资源版本的唯一标识符。 |
值 |
N/A |
|
Evaluation Mode |
指示用于策略评估的模式。 |
值 |
N/A |
|
Fleet Membership |
显示集群在舰队中的成员资格,便于统一管理。 |
值 |
N/A |
|
Kubernetes Version |
显示集群上运行的 Kubernetes 版本。 |
值 |
N/A |
|
Monitoring Config |
详述集群监控的配置信息。 |
值 |
N/A |
|
Name |
指定资源的名称。 |
值 |
N/A |
|
Platform Version |
指示托管集群的平台版本。 |
值 |
N/A |
|
Project ID |
标识与资源关联的 Google Cloud 项目。 |
值 |
N/A |
|
State |
反映资源当前的运行状态。 |
值 |
N/A |
|
Updated Time |
记录上次更新资源时的时间戳。 |
值 |
N/A |
|
资产清单 |
|||
|
Monitor Licensing Category |
显示此监视器的许可类别。 |
值 |
N/A |
|
Monitor Group(s) Associated |
显示关联的监视器组。 |
值 |
N/A |
|
Threshold and Availability Profile |
显示关联的阈值配置文件。 |
值 |
N/A |
|
Notification Profile |
显示关联的通知配置文件。 |
值 |
N/A |
|
User Alert Group |
显示关联的用户告警组。 |
值 |
N/A |
|
Monitor Creation Time |
显示此监视器的创建时间。 |
值 |
N/A |
|
Last Modified Time |
显示此监视器上次修改的时间。 |
值 |
N/A |
阈值配置
-
- 全局配置
- 在 Site24x7 Web 客户端中,从左侧导航栏进入管理部分。
- 从左侧窗格选择配置文件,然后通过下拉菜单选择阈值和可用性。
- 点击右上角的添加阈值配置文件。
- 对于监视器类型,选择 GCP Anthos Cluster。
- 现在您可以为上述所有指标设置阈值。
-
监视器级别配置
- 在 Site24x7 Web 客户端中,前往 Cloud > GCP > Anthos Cluster。
-
选择要设置阈值的资源,然后点击汉堡包(
)图标。 - 选择编辑,进入 编辑 GCP Anthos Cluster Monitor 页面。
- 使用阈值和可用性选项为指标设置阈值。
- 您还可以在属性级别配置 IT 自动化。
IT 自动化
Site24x7 提供一套专属的 IT 自动化工具,可自动解决性能下降问题。这些工具主动响应事件,无需等待人工干预。IT 自动化工具能够自动执行重复性任务,并自动修复阈值违规问题。告警引擎持续评估已设置阈值的系统事件,并在发生违规时执行映射的自动化操作。
配置规则
逐一编辑多个监视器以关联不同的监视器组或添加不同的标签可能是一个繁琐的过程。借助 Site24x7 的配置规则,您可以自动化监控资源的配置设置。此外,Site24x7 还允许您创建自定义规则,持续跟踪配置变更并实现理想的配置状态。
摘要
摘要 标签页将按时间维度呈现上述指标的性能数据。查看摘要的步骤:
- 前往 Cloud > GCP > GCP Anthos Cluster。
- 选择一个资源。
- 点击摘要标签页。
报表
利用我们直观深入的报表,获取已监控资源各参数的详细数据,提升服务性能。
查看 Google Anthos Cluster 资源报表的步骤:
- 前往左侧导航栏中的报表部分。
- 从左侧菜单中选择 Google Anthos Cluster。
- 您可以查看单个监视器的可用性摘要报表、性能报表和资产清单报表;也可以查看所有 Google Anthos Cluster 监视器的摘要报表、可用性摘要报表、健康趋势报表和性能报表。
您也可以从 GCP Anthos Cluster 监视器的摘要标签页获取报表:
- 点击摘要标签页。
- 点击可用性获取监视器的可用性摘要报表。
- 点击任意图表标题也可查看监视器的性能报表。
