Kubernetes 监视器的告警配置
有效的 Kubernetes 监控依赖于在性能问题影响应用程序性能和可用性之前主动识别并解决问题。Site24x7 提供强大的 Kubernetes 监控功能,配置阈值是其中的关键环节。
阈值允许您为各种 Kubernetes 资源定义可接受的性能限制,并在超出这些限制时收到告警,从而能够及时采取纠正措施。
为何阈值在 Kubernetes 监控中至关重要
为 Kubernetes 监控使用阈值具有以下几个优势:
-
提前检测性能瓶颈:在资源限制(CPU、内存、磁盘 I/O)影响应用程序性能之前,提前识别相关问题。
-
主动告警潜在问题:在潜在问题升级为重大事件之前,接收相关通知。
-
减少宕机时间并提高应用可用性:在问题出现之前收到告警,从而快速解决问题、最大限度地减少宕机时间。
-
改善资源管理:根据性能数据和阈值违规情况优化资源分配。
阈值配置
Site24x7 允许您为每种受支持的 Kubernetes 资源类型的各类 Kubernetes 指标配置阈值。您可以为每种受监控的 Kubernetes 资源创建新的阈值配置文件或关联现有配置文件。
请按照以下步骤创建阈值配置文件:
-
登录 Site24x7。
-
导航至 K8s > 选择集群 > 进入您希望关联阈值配置文件的 Kubernetes 资源监视器。
-
将鼠标悬停在显示名称旁边的汉堡图标
上,点击编辑。
-
在配置文件 > 阈值和可用性下,点击加号图标 + 创建新配置文件;点击铅笔图标
编辑现有配置文件。
-
点击保存。
为特定 Kubernetes 资源配置阈值:
Site24x7 允许您在 Kubernetes 环境的不同层级配置阈值。
以下是针对关键组件(即 Pod)的配置示例:
这些关键指标包括 CPU 使用率、内存使用率、重启次数和就绪探针失败次数。
配置示例 1:
如果您要设置 Pod 重启次数超出阈值时的告警,可以在 Pod 重启次数超过理想阈值限制以及资源利用率超过定义限制时收到告警。
-
导航至 Pod 监视器,点击汉堡图标
> 编辑。
-
在配置文件 > 阈值和可用性下,点击加号图标 + 创建新配置文件;点击铅笔图标
编辑现有配置文件。
-
在阈值配置文件弹出窗口中,在阈值配置下,从设置阈值下拉菜单中选择重启次数。
-
为此阈值配置选择以下规格:
-
-
指标:重启次数
-
阈值类型:静态阈值
-
严重性级别:严重
-
阈值数量:5
-
条件:高于
-
选择条件、阈值数量和轮询值,然后保存更改。
配置示例 2:
类似地,您可以在 Pod 的 CPU 使用率超过 90% 时收到告警:
按照上述步骤导航至编辑 Kubernetes 监视器页面,并为此阈值配置选择以下规格:
-
-
指标:Pod CPU 使用率
-
阈值类型:静态阈值
-
严重性级别:严重
-
阈值值:90%
-
条件:高于
-
通过此配置,当 Pod 的 CPU 使用率超过 90% 时,您将收到告警。
您还可以在 Kubernetes 组件的不同层级为某些指标设置阈值。例如,您可以从 Pod 级别开始,逐步在部署级别、命名空间、节点或集群级别为 Pod 的 CPU 使用率设置告警,以实现全面跟踪。
同样,您可以为所有组件的各类阈值属性创建告警,包括:
设置严重性级别
配置阈值时,必须为触发的告警分配严重性级别(严重、警告、故障)。请根据问题的影响选择适当的严重性级别。
-
宕机:用于直接影响应用程序可用性或性能、需要立即处理的问题。
-
严重:用于应当调查但目前不影响应用程序可用性的潜在问题。
-
故障:用于可能需要监控但不需要立即采取行动的轻微问题或偏离正常行为的情况。
告警机制
Site24x7 提供多种告警机制,包括电子邮件、短信、Webhook 和语音通话,当阈值被超出时通知您。
配置阈值是使用 Site24x7 进行有效 Kubernetes 监控的关键环节。通过设置适当的阈值,您可以在问题影响应用程序性能和可用性之前主动识别并解决潜在问题。
