腾讯云 TKE 监控集成
使用 Site24x7 腾讯云 TKE 监控集成,您可以:
- 追踪集群范围内的 CPU 和内存利用率,及早发现资源压力。
- 监控节点和 Pod 健康状态——包括总数、运行中、待处理和异常数量。
- 观察网络接收和发送速率,检测集群级别的流量异常。
- 利用节点和 Pod 趋势数据主动规划集群扩缩容决策。
本帮助文档包含设置腾讯云 TKE 监控集成的说明及相关信息。
设置与配置
在设置腾讯云监视器时,如果您在服务/资源下拉菜单中已选择 TKE,则所有 TKE 资源将被自动发现并开始监控,无需为每个资源手动创建监视器。
如果您在创建腾讯云监视器时未选择 TKE,请按以下说明操作:
- 登录您的 Site24x7 账户。
- 转到云 > 腾讯云,选择您的腾讯云监视器,然后转到左侧窗格中的任意仪表板。
- 单击汉堡图标
,选择编辑,进入编辑腾讯云监视器页面。 - 在编辑腾讯云监视器页面,从服务/资源下拉菜单中选择 TKE,然后单击保存。
- 配置成功后,转到云 > 腾讯云 > TKE,即可查看已发现的资源。
数据采集频率
默认情况下,腾讯云 TKE 资源的性能指标每五分钟采集一次,并每五分钟在 Site24x7 门户中更新;指标也会根据所选轮询间隔进行采集。
支持的指标
| 指标名称 | 描述 | 单位 |
|---|---|---|
| 总 CPU 核心数 | 集群所有节点可用的 CPU 核心总数 | 核 |
| 已用 CPU 核心数 | 集群所有节点当前使用中的 CPU 核心数 | 核 |
| 总内存 | 集群所有节点可用的总内存 | GB |
| 内存使用量 | 集群所有节点当前使用中的内存 | 字节 |
| 网络接收量 | 集群每秒通过网络接收的数据量 | 字节/秒 |
| 网络发送量 | 集群每秒通过网络发送的数据量 | 字节/秒 |
| 异常节点数 | 处于不健康或未就绪状态的节点数量 | 个 |
| 总节点数 | 集群中注册的节点总数 | 个 |
| 异常 Pod 数 | 处于失败、错误或崩溃循环状态的 Pod 数量 | 个 |
| 待处理 Pod 数 | 等待调度或等待资源可用的 Pod 数量 | 个 |
| 运行中 Pod 数 | 当前处于运行状态的 Pod 数量 | 个 |
| 总 Pod 数 | 集群所有命名空间中的 Pod 总数 | 个 |
阈值配置
全局配置
- 转到左侧导航栏中的管理部分。
- 在左侧窗格中选择配置文件,并从下拉菜单中选择阈值与可用性 (+) 标签页。单击右上角的添加阈值配置文件。
- 将监视器类型设置为腾讯云 TKE。现在您可以为上述所有指标设置阈值。
监视器级别配置
- 转到云 > 腾讯云 > TKE。
- 选择您要设置阈值的资源,然后单击汉堡图标
。选择编辑,进入编辑腾讯云 TKE 监视器页面。 - 您可以通过选择阈值与可用性来设置指标的阈值。您也可以在属性级别配置 IT 自动化。
IT 自动化
Site24x7 的 IT 自动化工具可帮助自动解决性能下降问题。当阈值被突破时,告警引擎会持续检查已定义阈值的系统事件,并执行映射的自动化操作。
配置规则
借助 Site24x7 的配置规则,您可以为多个监视器设置阈值配置文件、通知配置文件、标签和监视器组等参数,并自动化监控资源的配置设置。
