如何监控 DigitalOcean 中的 Kubernetes
Site24x7 监控您的 DigitalOcean Kubernetes(DOKS)集群可用性和运行状态,提供对集群健康状况和正常运行时间的实时可见性。该监视器跟踪集群的可用性状态,并呈现错误状态,例如配置失败或未知情况。
通过同时观察这些指标,您可以提前发现性能下降的迹象,确保在集群进入不健康状态时立即通知您的团队。
使用场景
集群健康状况:摘要标签页为您提供集群可用性和宕机时间的实时视图,以便您快速发现 Kubernetes 集群何时离线并立即采取行动。
SLA 验证:可用性和宕机时间指标帮助您根据 SLA 跟踪集群正常运行时间,从而更轻松地支持内部报表和客户承诺。
事故关联:通过将集群宕机时间与应用程序问题进行对比,您可以快速判断问题是否源自 Kubernetes 层,从而加快根因分析。
设置与配置
在 DigitalOcean 集成过程中,Kubernetes 资源会被自动发现并纳入监控。要启用监控,请按照以下步骤操作:
- 导航至云 > DigitalOcean > 添加 DigitalOcean 监视器,按照步骤添加 DigitalOcean 监视器。
- 在添加或编辑 DigitalOcean 监视器时,从服务/资源类型下拉列表中选择 Kubernetes,然后点击保存。
- 前往云 > DigitalOcean,选择已创建的 DigitalOcean 监视器,然后点击 Kubernetes。
Kubernetes 将在下一个发现周期中被发现,具体取决于您在创建 DigitalOcean 监视器时选择的发现频率。
数据采集频率
DigitalOcean Kubernetes 的性能指标每两分钟采集一次,默认情况下每五分钟根据所选轮询间隔在 Site24x7 门户中更新一次。
支持的指标
摘要
摘要报表为您提供 DigitalOcean Kubernetes 集群的完整概览,包括在任意选定时间范围内的正常运行时间、中断频率和宕机时间。它显示 Kubernetes 集群的状态,例如正常(集群运行且可访问时)和异常(集群处于错误或未知状态及持续时长),为运维团队提供一目了然的所有已配置监视器集群健康状况全局视图。
