帮助手册

SLO - 概述

服务等级目标(SLO)定义并衡量您承诺向客户提供的服务水平。通过建立明确的性能目标,SLO 使团队能够监控、评估并持续改进其服务交付。

在 Site24x7 中,您可以使用与可用性和性能属性相关的指标来定义 SLO,从而评估您的服务是否满足服务等级协议(SLA)。

追踪服务可靠性有助于确保与已定义的服务等级承诺保持一致,并有助于维系客户信任。这种方法可帮助项目经理和站点可靠性工程师实现多项目标,包括管理错误预算(即 SLO 违反前允许的最大宕机时间或故障次数)、评估 SLO 违反的影响,以及制定向客户提供的 SLA。

什么是 SLO?

SLO 是服务的可靠性目标,定义了在特定时间段内服务的可接受可用性或性能水平。

SLO 以固定时间窗口内的百分比来表示。例如,某 SLO 可能规定网站在过去 30 天内的正常运行时间应达到 99.9%。如果服务低于此阈值,则表明未能达到约定的服务水平。

SLO 通常基于称为服务等级指标(SLI)的指标,SLI 是用于监控实现 SLO 进度的关键性能指标。

为什么需要 SLO?

SLO 有助于监控服务的可靠性,并基于数据做出决策以改善服务交付。以下是使用 SLO 的原因:

  • 追踪性能趋势:SLO 帮助您了解服务在特定时间范围内的表现。
  • 预防违约:通过监控 SLO,您可以在问题影响客户之前主动解决。
  • 提升客户信任:达成或超越 SLO 可增强客户对您服务的信心。
  • 驱动工程决策:SLO 识别需要提升可靠性的领域,帮助团队有效确定工程优先级。
  • 集中管理:从统一仪表板定义和管理所有受监控资源的 SLO。
  • 性能可视化:使用直观图表可视化 SLO 性能,并生成详细报表供审查。
  • 错误预算追踪:自动计算并监控错误预算和消耗速率,以保持在可接受的可靠性限制内。
  • 智能告警:当 SLO 接近或超过定义阈值时接收告警,确保及时采取行动。

使用场景

监控应用程序的 SLO
为了理解为什么 SLO 对应用程序性能至关重要,请参考以下实际场景:

您有一个使用 Site24x7 APM 监控的 Web 应用程序。您希望确保应用程序在两秒内响应用户请求,这是您对至少 95% 的总交互次数设定的目标。您可以使用以下配置创建 SLO:

  • SLI:响应时间(基于 APM 事务指标)
  • 时间窗口:过去七天
  • 阈值:95% 的事务应在两秒内完成

配置完成后,Site24x7 将持续评估您的应用程序性能是否符合定义的阈值。如果超过 5% 的事务超过两秒限制,则视为阈值被突破,这将消耗错误预算——即 SLO 内允许的故障边际。

Site24x7 计算消耗速率,以指示错误预算被消耗的速度。如果整个错误预算在时间窗口内被耗尽,则表示 SLO 被违反,即公司未能履行对客户承诺的可靠性保证。

在 Site24x7 中监控 SLO 有助于您随时了解目标是否正在实现,以及客户承诺是否按计划进行。基于此洞察,您可以及时采取纠正措施,防止进一步劣化并改善整体性能。

SLO 的工作原理

在 Site24x7 中,您可以通过选择监视器和关联的 SLI(如可用性或响应时间),然后选择阈值和评估窗口来定义 SLO。Site24x7 持续检查是否满足定义的目标。如果性能低于阈值,则 SLO 失败。

您可以为单个监视器或使用标签的监视器组定义 SLO。配置完成后,Site24x7 提供 SLO 评估的图形视图和报表,帮助您轻松评估服务可靠性。

深入了解 SLO 配置、性能指标及相关功能

通过以下资源,探索关键 SLO 概念,了解如何设置和监控 SLO、分析性能指标,以及生成报表以确保服务可靠性。   

帮助页面 功能说明
添加 SLO 了解如何创建和配置 SLO、定义目标并设置服务可靠性监控。
SLO 性能指标 分析实时和历史 SLO 性能,追踪趋势,并评估与设定目标的合规性。
阈值与可用性 定义性能阈值、衡量可用性,并确保服务满足可靠性期望。
SLO 报表 生成详细的 SLO 报表,解读关键指标,并追踪长期合规性。
SLO 仪表板 在单一仪表板中获取所有 SLO 的概览,包括图形洞察和实时监控指标。
理解 SLO 概念 了解与 SLO 相关的基本术语,包括 SLI、错误预算、消耗速率和合规性百分比。

本文档对您有帮助吗?

您愿意帮助我们改进文档吗?请告诉我们哪些方面可以做得更好。


很抱歉本文档未能让您满意。我们希望了解可以从哪些方面改进您的体验。


感谢您抽出时间分享反馈。我们将利用您的反馈来改进在线帮助资源。

短链接已复制!