帮助手册

SLO 指标

解读 SLO 结果

服务级别目标(SLO)指标提供服务性能、错误预算消耗及符合已定义 SLO 目标情况的实时洞察。该仪表板帮助 IT 管理员跟踪服务可靠性,并主动管理服务性能。

性能摘要通过以下选项卡进行分类:

  • 摘要
  • 日志报表
  • 资产
  • 违规历史

摘要

摘要选项卡列出所有 SLO 指标。以下是 SLO 摘要页面上的可用指标列表:

指标 描述
滚动时间窗口 衡量 SLO 性能的连续时间段。 
当前 SLO SLO 服务可用性或可靠性的实时百分比。
目标 SLO 服务必须达到的预定义可靠性目标。
错误预算消耗 已使用的允许宕机时间百分比。
剩余错误时间 违反 SLO 前剩余的允许宕机时间。
消耗速率 错误预算被消耗的速度。

图形化展示

摘要选项卡还会显示关键指标的图形化展示,分为以下几类:

  • SLO
  • 剩余错误时间
  • 错误预算消耗
  • 消耗速率
  • 服务级别指标(SLI) 
  • SLO 图表(柱状图)

    该图表显示随时间变化的 SLO 性能,以 SLO 百分比(0-100%)表示,时间戳基于频率间隔。

    每个柱代表特定频率下的 SLO 状态,展示达成目标的一致性或波动情况。

    要深入了解并管理 SLO 柱状图,请点击汉堡菜单图标(☰)以访问更多图表选项。您可以: 
    • 添加到仪表板:将此 SLO 小组件固定到现有的自定义仪表板,便于快速查看和持续跟踪。
    • 显示原始数据:查看用于计算 SLO 性能的详细底层数据点。
    • 显示修改历史:查看对 SLO 和 SLI 配置所做的修改历史记录。
  • 剩余错误时间

    该图表以可视化方式显示所选时段内剩余的错误时间。
    趋势下降表示服务正在消耗错误预算,存在违反 SLO 的风险。

    点击汉堡菜单图标(),选择添加到仪表板选项,即可将 SLO 小组件固定到现有的自定义仪表板,便于查看和持续跟踪。
  • 错误预算消耗

    该图表表示错误预算,即在 SLO 违规发生之前可接受的故障或宕机级别。
    趋势上升表示服务中断正在发生,正在消耗错误预算。

    点击汉堡菜单图标(),选择添加到仪表板选项,即可将 SLO 小组件固定到现有的自定义仪表板,便于查看和持续跟踪。

    注意

    趋势线持平于 0 表示尚未开始消耗错误预算。

  • 消耗速率图表

    该图表显示错误预算随时间消耗的速度。趋势线持平于 0 表示服务稳定,无错误预算消耗。

    消耗速率大于 1 表示服务正在遭遇故障并消耗预算。

    解读消耗速率:
    • 消耗速率 = 1:未记录任何错误,服务正在满足 SLO。
    • 缓慢上升:发生了轻微的偶发性错误,但可能不严重。
    • 突然飙升:服务问题正在迅速消耗错误预算,增加了 SLO 违规的风险。
      点击汉堡菜单图标(),选择添加到仪表板选项,即可将 SLO 小组件固定到现有的自定义仪表板,便于查看和持续跟踪。
  • SLI 图表

    为 SLO 配置的每个 SLI 将根据评估方法以图表形式显示。 

    评估方法
    • 基于计数
    • 基于时间
    • 基于时间切片 

    • 基于计数:该方法根据特定事件发生的总次数来衡量 SLO。例如,某 API 的 SLO 成功率为 99.9%,基于计数的评估将检查评估期内成功 API 请求数与总请求数的比例。
      如果向 API 发送了 1,000 个请求,其中 999 个成功,则成功率为 99.9%,即满足 SLO。如果错误超过总计数的 0.1%,则 SLO 被违反。
    • 基于时间:该方法根据服务处于良好或不良状态的总时间来评估 SLO。例如,网站 www.example.com 的正常运行时间 SLO 为 99.9%,评估依据是网站保持可用的时长。30 天内网站正常运行的总时间为 43,200 分钟。如果 SLO 为 99.9%,则服务必须保持正常运行 43,157 分钟,允许的宕机时间为 43 分钟。如果每月宕机时间超过 43 分钟,则 SLO 被违反。
    • 基于时间切片:该方法通过将评估分解为称为"切片"的较小时间间隔来评估 SLO 合规性,而不是一次性查看整个时段。例如,某网站的正常运行时间 SLO 为每小时 99.9%,则该网站必须在每个一小时切片内实现至少 99% 的正常运行时间,即在整个小时内保持正常运行。
    以下为每个 SLI 的图表。点击汉堡菜单图标 (☰) ,可通过选择更改 SLI 名称选项来修改 SLI 名称。点击添加到仪表板选项,即可将您的 SLI 添加到仪表板。
    要访问图表的更多选项,请点击汉堡菜单图标()。根据需要,您可以选择以下三个选项: 
    • 编辑 SLI 名称:允许您修改 SLI 名称。
    • 添加到仪表板:将此 SLO 小组件固定到现有的自定义仪表板,便于快速查看和持续跟踪。
    • 查看修改历史:查看对 SLO 和 SLI 配置所做的修改历史记录。
  • SLI 报表

    点击特定 SLI 的图表图标 图表图标,将打开 SLI 报表。该报表提供所有相关监视器的 SLI 基于时间的图表,并显示与该 SLI 关联的监视器总数。

日志报表

通过 SLO 监视器的集成日志记录,您可深入了解自定义时段内 SLO 监视器的各类日志详情,也可按可用性筛选日志。 
此处记录了多种数据,包括采集时间状态错误预算消耗(%)剩余错误时间消耗速率SLO 合规率(%)。您还可以使用表格 表格图标按钮筛选日志报表的列。

分享日志报表

分享格式按钮允许您将数据导出为 PDF、CSV 和电子邮件。分享至选项允许您直接将数据发送到第三方工具。此选项仅在已为所选工具启用第三方集成时可用。

  • 第三方工具:选择要发送报表的第三方工具。
  • 消息标题:提供了默认消息标题,可根据需要修改,以更改其在消息通知中的显示方式。
注意
  • 此选项适用于 SlackTelegramDiscord 等集成工具。
  • 要验证数据是否已成功发送到第三方工具,请查看日志页面。该页面显示每个请求的状态,帮助您确认数据传输是否成功或是否发生错误。

建议

建议创建专用的集成渠道来发送报表,而不是使用为告警配置的相同渠道。使用专用渠道有助于保持清晰,确保报表不会被忽略或与告警通知混淆。

Ask Zia 是一款 AI 驱动的分析助手,可帮助您使用自然语言查询获取洞察并生成报表。 

资产

资产部分记录监视器信息,包括监视器许可类别、检查频率、阈值和可用性配置文件、通知配置文件、用户告警组、监视器创建时间最后修改时间

点击事件聊天按钮,可基于 SLO 监视器与机器人开始对话。您还可以点击添加备注按钮为 SLO 监视器添加备注。

违规历史

此部分记录所有过去的 SLO 违规事件,包括每次违规的确切时间、持续时长和原因,帮助您快速识别并解决性能问题。

指标 描述
开始时间至结束时间 表示 SLO 违规发生的时间段。
持续时长 显示违规持续的总时间。
原因 说明 SLO 违规背后的主要原因或促成因素。
最新备注 显示为特定违规事件添加的最新备注或更新。

分享违规历史

分享格式选项允许您将数据导出为 PDF、CSV 和电子邮件。分享至选项允许您直接将数据发送到第三方工具。此选项仅在已为所选工具启用第三方集成时可用。

  • 第三方工具:选择要发送报表的第三方工具。
  • 消息标题:提供了默认消息标题,可根据需要修改,以更改其在消息通知中的显示方式。
注意
  • 此选项适用于 SlackTelegramDiscord 等集成工具。
  • 要验证数据是否已成功发送到第三方工具,请查看日志页面。该页面显示每个请求的状态,帮助您确认数据传输是否成功或是否发生错误。

建议

建议创建专用的集成渠道来发送报表,而不是使用为告警配置的相同渠道。使用专用渠道有助于保持清晰,确保报表不会被忽略或与告警通知混淆。

相关文章

本文档对您有帮助吗?

您愿意帮助我们改进文档吗?请告诉我们哪些方面可以做得更好。


很抱歉本文档未能让您满意。我们希望了解可以从哪些方面改进您的体验。


感谢您抽出时间分享反馈。我们将利用您的反馈来改进在线帮助资源。

短链接已复制!