通过 Site24x7 运行状况检查隔离监视器性能问题的 6 种方法


是只有我们,还是您也觉得仅靠Monitor Group (MG) 做不了多少事情?如果这种感觉是相互的,那么我们就志同道合。您的运维工程师可能认为 MG 限制了执行 IT 自动化的能力。对于运维工程师来说,处理事件的难易程度取决于收到MG状态警报的频率。输入 Site24x7 健康检查。

Site24x7 中的运行状况检查可帮助您识别可能需要解决的问题,以维护监控组的整体状态。通过健康检查功能,您可以在多台显示器上查看显示器组的状态,以鸟瞰显示器的详细信息。监控 IT 基础设施运行状况可以帮助您检测和修复问题,从而节省时间和成本。

监控组的无能为力


监控组和子组提供了一种简化的方法,以便您可以组织受监控的资源并简化管理任务。通常很难确定具有单一资源的应用程序的稳定性。在容器化的背景下,多个资源在单个主机中运行,多个进程产生的影响可能会影响单个主机中的其他进程。这需要对多个级别的分组有一个鸟瞰图,例如应用程序、服务器和其他分组,例如 Kubernetes 中的命名空间等分组术语。

当您在监控组中整合为单个业务应用程序提供服务的多个资源时,单独跟踪每个资源和编译可用性数据的过程会变得乏味。这也暴露了显示器组的无能为力,因为仅显示显示器组并不能确保显示器性能良好。

噪音更少,工作更多


运行状况检查使您能够在确定监视器组的可用性时查看和分析监视器组的状态。反过来,这可以让您有效地管理您的资源。Site24x7 的健康检查在创建监控组或子组时自动激活。

因此,您可以立即访问 MG 健康检查的整体快照。它作为一个分类账,记录一组被认为一起工作的资源如何作为一个单元执行,并提供应用程序稳定性的历史视角。

健康检查用例


让我们考虑一个启用了运行状况检查的监视器组的场景。每当资源状态发生变化时,您都可以在监控组级别访问全面的根本原因分析 (RCA),这也有助于评估组级别的影响。此外,资源状态的任何变化都会立即反映在监控组中,从而在监控组级别产生综合警报。这种集成可以减少警报泛滥、降低噪音并简化监控流程。

您可以通过以下六种方法来隔离运行状况检查的性能问题:

1. 运行多个监视器组


运行多个监控组来跟踪一个或多个业务应用程序的性能,单独监控每个资源,并编译这些资源的性能状态。

2. 配置阈值并获取实时警报


您可以为特定监控组添加阈值配置文件,并为与其关联的所有状态设置阈值。监控组状态根据运行状况检查配置进行更新。RCA 对应于事件场景或特定子集,可帮助运维工程师更快地实现解决方案。

3. 跟踪资源可用性


通过资源可用性,根据阈值获取监视器组状态,例如可用性百分比以及可能反映正常、关闭或严重状态的监视器总数。

4. 降噪和管理警报


运行状况检查使您能够将所有资源的警报静音并在 MG 级别接收一个警报。从这里,您可以跟踪各个监视器状态变化,包括确切的中断时间和中断原因。通过为各个监视器创建阈值来设置配置。

5. 跟踪监控子组的状态


根据您的运行状况检查阈值首选项定制监控组或子组的状态。您还可以将所有子组传播传递给父 MG。

6. 部署 IT自动化和第三方集成


IT 自动化可有效提高生产力、降低成本和提高可用性。获取交付给您的第三方集成的运行状况检查的 RCA 报告。

通过这些方法来隔离性能问题,监控组或子组的运行状况检查可以跟踪监控组内各个资源的状态和停机时间。它使您能够深入了解经常发生状态变化的资源,从而进行深入的问题分析。要了解有关健康检查的更多信息,请参阅我们的文档。