Kubernetes Controller Manager 监控
使用 Kubernetes Controller Manager 监控功能,精准掌控您的 Kubernetes 控制平面核心。此关键组件负责协调关键操作,确保节点管理、Pod 调度和工作负载自动化的无缝运行。
获取详细指标,包括请求处理、资源使用、Webhook 活动和工作队列情况。借助这些洞察,您可以:
-
精准定位 Controller Manager 中的性能瓶颈。
-
检测工作队列深度、重试次数、处理时长以及未完成工作。
-
通过分析工作负载和存储效率,优化资源分配。
确保您的集群以最佳性能运行,同时维护安全高效的容器化生态系统。
支持的版本
此功能从 Linux 服务器监控代理版本 20.0.0 开始支持。
控制平面监控及其他最新功能要求您将 Kubernetes 代理升级至最新版本。
注意
如果您尚未添加 Kubernetes 监视器,请 按照以下步骤添加。
Controller Manager 监视器
代理升级完成后,Site24x7 Kubernetes 监控代理将立即获取所有 Controller Manager 指标。
要导航至您的 Kubernetes Controller Manager 监视器:
-
登录您的 Site24x7 账户。
-
前往 K8s > 选择集群 > Controller Manager。此操作将打开该集群中 Controller Manager 监视器的列表。点击其中一个可查看该监视器的详细信息。
支持的指标
| 指标 | 描述 |
| Go Threads | 上次轮询时间内,Controller Manager 进程的 Go 运行时创建的操作系统线程数 |
| Go Routines | 上次轮询时间内,Controller Manager 进程当前存在的 Go 协程数 |
| Terminated Pods Tracking Finalizer (Add) | 上次轮询周期内,在添加事件中具有 finalizer batch 的已终止 Pod 数(phase=Failed|Succeeded) |
| Terminated Pods Tracking Finalizer (Delete) | 上次轮询周期内,在删除事件中具有 finalizer batch 的已终止 Pod 数(phase=Failed|Succeeded) |
| Leader Election Status | 当前 Kubernetes Controller Manager 实例的状态,用于表示其是主节点还是备用节点(1/0) |
| Process Resident Memory | 上次轮询时间内,Controller Manager 进程使用的常驻内存大小(字节) |
| Process Virtual Memory | 上次轮询时间内,Controller Manager 进程使用的虚拟内存大小(字节) |
| Process CPU Time | 上次轮询周期内,Controller Manager 进程消耗的 CPU 时间 |
| Process Open File Descriptors | 上次轮询时间内,Controller Manager 进程打开的文件描述符数量 |
| Maximum Open File Descriptors | 上次轮询时间内,最大打开文件描述符数量 |
| Average Request Latency | 上次轮询周期内,Controller Manager 进程每个 API 请求的平均延迟 |
| Requests Count | 上次轮询周期内,Controller Manager 进程的 API 请求总数 |
| Total Requests Duration | 上次轮询周期内,Controller Manager 进程处理所有 API 请求的总耗时 |
| 按响应码分类的 Rest 客户端请求 | |
| Response Code | 请求的响应码 |
| Total Rest Client Requests | 上次轮询周期内,API 服务器向外部服务或 API 发出的 HTTP 请求总数(按响应码分组) |
| 按动词分类的 Rest 客户端请求 | |
| Verb | 请求的动词操作 |
| Total Rest Client Requests | 上次轮询周期内,API 服务器向外部服务或 API 发出的 HTTP 请求总数(按动词分组) |
| Average Request Latency | 上次轮询周期内,Controller Manager 进程按动词分组的每个 API 请求的平均延迟 |
| Total Requests | 上次轮询周期内,Controller Manager 进程按动词分组的 API 请求总数 |
| Total Requests Duration | 上次轮询周期内,Controller Manager 进程按动词分组处理所有 API 请求的总耗时 |
| 按主机分类的 Rest 客户端请求 | |
| Host | 服务的主机名 |
| Total Rest Client Requests | 上次轮询周期内,API 服务器向外部服务或 API 发出的 HTTP 请求总数(按主机名分组) |
| Average Request Latency | 上次轮询周期内,Controller Manager 进程按动词分组的每个 API 请求的平均延迟 |
| Total Requests | 上次轮询周期内,Controller Manager 进程按动词分组的 API 请求总数 |
| Total Requests Duration | 上次轮询周期内,Controller Manager 进程按动词分组处理所有 API 请求的总耗时 |
| 工作队列 | |
| Resource Name | 操作或任务工作队列的名称 |
| Total Workqueue Adds | 上次轮询周期内,按操作名称分组,工作队列处理的添加操作总数 |
| Workqueue Depth | 上次轮询时间内,按操作名称分组,工作队列中待处理的操作或任务数量 |
| Workqueue Retries | 上次轮询周期内,按名称分组,工作队列处理的重试总数 |
| Workqueue Unfinished Work Duration | 已完成、正在进行或尚未被工作时长观测到的工作持续时间。较大的值表示存在阻塞线程。您可以通过观察上次轮询时间内该值的增长速率来推断阻塞线程的数量 |
| Average Workqueue Queue Duration | 上次轮询周期内,工作项在工作队列中等待被处理前的平均停留时长 |
| Total Workqueue Queue Count | 上次轮询周期内,被请求处理的工作项总数 |
| Total Workqueue Queue Duration | 上次轮询周期内,工作项在工作队列中等待被处理前的总停留时长 |
| Average Workqueue Work Duration | 上次轮询周期内,处理一个工作项的平均耗时 |
| Total Workqueue Work Count | 上次轮询周期内,从工作队列中处理的工作项总数 |
| Total Workqueue Work Duration | 上次轮询周期内,从工作队列中处理一个工作项的总耗时 |
| Workqueue Longest Running Processor Duration | 上次轮询时间内,工作队列中运行时间最长的处理器的总持续时长 |
相关链接:
