负载均衡器监控
OCI 负载均衡器是一项全托管的高可用服务,可将传入的应用程序流量分配到多个后端服务器,以确保容错能力和最佳性能。使用 Site24x7 监控负载均衡器,可帮助您实时了解流量分配、后端健康状态和监听器性能,从而加快问题检测、提升正常运行时间并优化资源配置。
概述
Site24x7 与 Oracle Cloud Infrastructure (OCI) 负载均衡器的集成,使您能够监控负载均衡基础架构的性能、健康状态和可用性,并获得深入可见性。

通过此集成,您可以监控关键指标、追踪健康状态,并设置主动告警以确保后端资源间的流量分配不间断。此集成还为您提供以下子监视器:
- 后端集:追踪附加到负载均衡器的后端服务器组的健康状态和性能。Site24x7 监控健康和不健康后端数量、后端响应延迟和健康检查状态等关键指标。这有助于确保流量仅路由到健康实例,并在后端无响应时采取纠正措施。
- 监听器:深入了解负载均衡器处理传入客户端请求的方式。它监控监听器特定指标,例如请求数量、连接错误和响应延迟。借助 Site24x7,您可以检测流量突增或连接失败增加等异常情况,帮助您排查问题并维持可靠的客户端-服务器通信。
使用场景
- 一家零售电商公司依靠负载均衡器管理流向其购物平台的用户流量,该平台托管在多台后端服务器上。在季节性促销活动期间,平台流量突然激增,其中一台后端服务器因资源耗尽而无响应。
借助 Site24x7 的负载均衡器监控,运营团队立即收到告警,显示受影响后端集中的某个后端未通过健康检查。与此同时,监听器指标显示连接错误和延迟增加,表明用户体验可能受到影响。利用这些洞察,团队迅速定位问题,将流量重新配置到健康服务器,并扩展后端资源以应对负载。Site24x7 的实时监控和告警避免了长时间宕机,确保了一致的负载分配,并在关键业务时期维持了最佳性能。 - 一家视频流媒体平台依靠负载均衡器在高流量体育赛事直播期间管理数百万并发观众。主要挑战是确保流畅播放,避免缓冲或宕机,而这可能在后端服务器因流量突增而过载时发生。Site24x7 在维护性能方面发挥了关键作用:自动发现新增后端服务器以确保流量高效分配,持续监控带宽使用量和吞吐量以在瓶颈影响观众之前识别并预防,还在缓存命中率下降时向管理员发出告警,以防内容分发效率低下影响用户体验。借助这些能力,流媒体平台即便在流量高峰期也实现了无缝、不间断的播放,确保了高观众满意度和留存率。
Site24x7 负载均衡器集成的优势
将负载均衡器与 Site24x7 集成,可享受以下优势:
- 监控传入和传出流量模式,优化资源分配并检测异常。
- 随时掌握后端资源和监听器的可用性和健康状态。
- 深入了解请求和响应指标、错误计数以及后端健康检查状态。
- 追踪延迟、丢弃连接和后端服务器响应时间,以优化负载均衡策略。
- 在阈值超出时立即收到告警,快速响应潜在问题。
设置与配置
- Site24x7 通过跨租户访问,使用 Site24x7 的租户用户监控您的资源。登录您的 Site24x7 账户,创建专项策略,允许 Site24x7 查看您的资源,同时不影响您的安全设置。
- 在集成 OCI 监视器页面,从待发现的服务列表中选择负载均衡器。
策略和权限
请确保关联的 OCI 策略具有以下权限:
- 读取 load-balancer-family
轮询频率
Site24x7 根据设置的轮询频率(从每分钟一次到每天一次)查询 OCI 服务级别 API,以采集负载均衡器监视器的指标。
支持的指标
负载均衡器
以下是负载均衡器监视器支持的指标:
| 指标名称 | 描述 | 统计方式 | 单位 |
|---|---|---|---|
| Accepted Connections | 负载均衡器接受的连接数 | 求和 | 计数 |
| Accepted SSL Handshakes | 已接受的 SSL 握手数 | 求和 | 计数 |
| Active Connections | 客户端到负载均衡器的活动连接数 | 最大值 | 计数 |
| Active SSL Connections | 活动 SSL 连接数 | 最大值 | 计数 |
| Bytes Received | 负载均衡器接收的字节数 | 平均值 | 字节 |
| Bytes Sent | 负载均衡器发送的字节数 | 平均值 | 字节 |
| Failed Client SSL Cert Verifications | 客户端 SSL 证书验证失败次数 | 求和 | 计数 |
| Failed SSL Handshakes | SSL 握手失败次数 | 平均值 | 计数 |
| Handled Connections | 负载均衡器处理的连接数 | 平均值 | 计数 |
| Inbound Requests | 到达负载均衡器的传入客户端请求数 | 平均值 | 计数 |
| Peak Bandwidth | 指定时间段内使用的最大带宽(比特/秒) | 平均值 | 比特 |
| Critical Backend Sets | 因严重健康问题或故障处于严重状态的后端集数量 | 求和 | 计数 |
| Warning Backend Sets | 存在潜在问题需要关注的后端集数量 | 求和 | 计数 |
| Unknown Backend Sets | 健康状态未知的后端集数量,可能由于缺少数据或连接问题所致 | 求和 | 计数 |
| Incomplete Backend Sets | 配置不完整或缺少组件的后端集数量 | 求和 | 计数 |
| Pending Backend Sets | 健康检查仍在初始化或等待结果的后端集数量 | 求和 | 计数 |
| OK Backend Sets | 健康且正常运行的后端集数量 | 求和 | 计数 |
| Percentage of Critical Backend Sets | 当前处于严重状态的后端集占总后端集的百分比 | 平均值 | 百分比 |
| Percentage of Warning Backend Sets | 当前处于告警状态的后端集占总后端集的百分比 | 平均值 | 百分比 |
| Percentage of Unknown Backend Sets | 健康状态未知的后端集占总后端集的百分比 | 平均值 | 百分比 |
| Percentage of Incomplete Backend Sets | 设置或配置不完整的后端集占总后端集的百分比 | 平均值 | 百分比 |
| Percentage of Pending Backend Sets | 等待健康检查结果的后端集占总后端集的百分比 | 平均值 | 百分比 |
| Percentage of OK Backend Sets | 正常运行的后端集占总后端集的百分比 | 平均值 | 百分比 |
| Drained Backend Sets | 已被标记为已排空的后端集数量 | 平均值 | 计数 |
| Percentage of Drained Backend Sets | 当前处于已排空状态的后端集占总后端集的百分比 | 平均值 | 百分比 |
后端集
以下是后端集监视器支持的指标:
| 指标名称 | 描述 | 统计方式 | 单位 |
|---|---|---|---|
| Active Connections | 从负载均衡器到所有后端服务器的活动连接数 | 最大值 | 计数 |
| Backend Servers | 后端集中的后端服务器数量 | 最大值 | 计数 |
| Backend Timeouts | 所有后端服务器的超时次数 | 求和 | 计数 |
| Bytes Received | 所有后端服务器接收的字节数 | 求和 | 字节 |
| Bytes Sent | 所有后端服务器发送的字节数 | 求和 | 字节 |
| Closed Connections | 负载均衡器与后端服务器之间已关闭的连接数 | 最大值 | 计数 |
| Inbound Requests | 到达后端集的传入客户端请求数 | 求和 | 计数 |
| Responses | 所有后端服务器的 HTTP 响应数 | 最小值 | 计数 |
| HTTP 200 Responses | 从后端服务器收到的 HTTP 200 响应数 | 最小值 | 计数 |
| HTTP 2xx Responses | 从后端服务器收到的 HTTP 2xx 响应数 | 最小值 | 计数 |
| HTTP 3xx Responses | 从后端服务器收到的 HTTP 3xx 响应数 | 最小值 | 计数 |
| HTTP 4xx Responses | 从后端服务器收到的 HTTP 4xx 响应数 | 最小值 | 计数 |
| HTTP 502 Responses | 从后端服务器收到的 HTTP 502 响应数 | 最小值 | 计数 |
| HTTP 504 Responses | 从后端服务器收到的 HTTP 504 响应数 | 最小值 | 计数 |
| HTTP 5xx Responses | 从后端服务器收到的 HTTP 5xx 响应数 | 最小值 | 计数 |
| Invalid Header Responses | 所有后端服务器的无效响应头数量 | 求和 | 计数 |
| Keep-alive Connections | 保活连接数 | 求和 | 计数 |
| Average Response Time (TCP only) | 从后端服务器收到响应第一个字节的平均时间(仅 TCP) | 求和 | MS |
| Average Response Time (HTTP only) | 后端服务器的平均响应时间(仅 HTTP) | 求和 | MS |
| Unhealthy Backend Servers | 后端集中不健康的后端服务器数量 | 最大值 | 计数 |
| Critical Backends | 因严重健康问题或故障处于严重状态的后端数量 | 求和 | 计数 |
| Warning Backends | 存在潜在问题需要关注的后端数量 | 求和 | 计数 |
| Unknown Backends | 健康状态未知的后端数量,可能由于缺少数据或连接问题所致 | 求和 | 计数 |
| OK Backends | 健康且正常运行的后端数量 | 求和 | 计数 |
| Percentage of Critical Backends | 当前处于严重状态的后端占总后端的百分比 | 平均值 | 百分比 |
| Percentage of Warning Backends | 当前处于告警状态的后端占总后端的百分比 | 平均值 | 百分比 |
| Percentage of Unknown Backends | 健康状态未知的后端占总后端的百分比 | 平均值 | 百分比 |
| Percentage of Incomplete Backends | 设置或配置不完整的后端占总后端的百分比 | 平均值 | 百分比 |
| Percentage of Pending Backends | 等待健康检查结果的后端占总后端的百分比 | 平均值 | 百分比 |
| Percentage of OK Backends | 正常运行的后端占总后端的百分比 | 平均值 | 百分比 |
| Incomplete Backends | 配置不完整或缺少组件的后端数量 | 求和 | 计数 |
| Pending Backends | 健康检查仍在初始化或等待结果的后端数量 | 求和 | 计数 |
| Drained Backends | 已被标记为已排空的后端数量 | 平均值 | 计数 |
| Percentage of Drained Backends | 当前处于已排空状态的后端占总后端的百分比 | 平均值 | 百分比 |
监听器
以下是监听器监视器支持的指标:
| 指标名称 | 描述 | 统计方式 | 单位 |
|---|---|---|---|
|
HTTP 200 Responses |
从后端集收到的 HTTP 200 响应数 |
最小值 |
计数 |
|
HTTP 2xx Responses |
从后端集收到的 HTTP 2xx 响应数 |
最小值 |
计数 |
|
HTTP 3xx Responses |
从后端集收到的 HTTP 3xx 响应数 |
最小值 |
计数 |
|
HTTP 4xx Responses |
从后端集收到的 HTTP 4xx 响应数 |
最小值 |
计数 |
|
HTTP 502 Responses |
从后端集收到的 HTTP 502 响应数 |
最小值 |
计数 |
|
HTTP 504 Responses |
从后端集收到的 HTTP 504 响应数 |
最小值 |
计数 |
|
HTTP 5xx Responses |
从后端集收到的 HTTP 5xx 响应数 |
最小值 |
计数 |
|
Responses |
从后端集收到的传入响应数 |
最小值 |
计数 |
阈值配置
为负载均衡器监视器配置阈值:
- 登录您的 Site24x7 账户,导航至管理 > 配置文件 > 阈值和可用性。
- 单击添加阈值配置文件。
- 从监视器类型下拉菜单中选择 OCI 负载均衡器,并在显示名称字段中提供适当的名称。
- 支持的指标将显示在阈值配置部分,您可以为上述所有指标设置阈值。
- 单击保存。
OCI 负载均衡器监视器中的状态传播
Site24x7 的 OCI 负载均衡器集成支持后端集和监听器的状态传播。
启用状态传播后:
- 后端集和监听器的告警默认处于禁用状态。
- 来自子监视器的状态变更告警将被抑制,除非您在编辑阈值页面将跳过告警设置为否。
- 将从父负载均衡器监视器发出单条告警。
这简化了负载均衡问题的排查过程。
支持状态传播的子监视器的告警将自动禁用。
例如,如果某个后端集变为不健康状态,父负载均衡器监视器将发出单条告警,指示存在负载均衡问题。
许可
- 每个负载均衡器监视器使用一个基础监视器许可证。
- 每个后端集监视器使用一个基础监视器许可证。
- 监听器监视器为免费监视器。
查看负载均衡器数据
如需监控您的负载均衡器环境,请登录 Site24x7 账户并导航至云 > OCI > 负载均衡器。
监视器数据
负载均衡器
负载均衡器监视器的监视器数据如下。
概要
概要选项卡以图表形式提供事件时间线和指标的概述。
监听器
监听器选项卡显示监听器可用性详情以及与负载均衡器监视器关联的监听器监视器列表。单击所需的监视器名称超链接,即可查看监听器监视器数据。
后端集
后端集选项卡显示后端集可用性详情以及与负载均衡器监视器关联的后端集监视器列表。单击所需的监视器名称超链接,即可查看后端集监视器数据。
WAF 防火墙
WAF 防火墙选项卡显示与您的负载均衡器监视器关联的 WAF 监视器列表。单击首选监视器名称即可查看 WAF 监视器数据。
配置
在配置选项卡中查看负载均衡器监视器的基本配置详情,例如负载均衡器名称、区域、区间 ID 和 OCID。
Zia 预测
使用 Zia 预测功能估算 CPU 利用率、CPU 时间和存储利用率指标的未来值。根据历史观测数据预测这些性能指标(资源使用量测量)的未来值,做出明智决策。系统使用 15 天的历史数据预测未来 7 天的指标使用情况。
中断
中断选项卡提供中断的开始时间、结束时间、持续时间和备注(如有)等详情。
库存
从库存选项卡获取负载均衡器名称、区域和监视器许可类别等详情。在此选项卡中根据用户设置并查看阈值和可用性配置文件以及通知配置文件。
日志报表
日志报表选项卡提供负载均衡器监视器日志状态的综合报表,可下载为 CSV 文件。
告警日志
告警日志选项卡按时间顺序显示与负载均衡器监视器相关的所有已触发告警列表。此选项卡有助于追踪告警历史和严重性,以评估问题并验证阈值设置。
后端集
后端集监视器的监视器数据如下。
概要
概要选项卡以图表形式提供事件时间线和指标的概述。您还可以在此选项卡中查看后端健康状态详情。
配置
在配置选项卡中查看后端集监视器的基本配置详情,例如负载均衡器名称、整体健康状态、区域和策略。此外,此选项卡还提供健康检查配置详情。
后端
后端选项卡显示后端详情,例如 IP 地址、端口和权重。您可以通过 IP 地址、端口和权重等选项对资源进行筛选。
中断
中断选项卡提供中断的开始时间、结束时间、持续时间和备注(如有)等详情。
库存
从库存选项卡获取负载均衡器名称、区域和监视器许可类别等详情。在此选项卡中根据用户设置并查看阈值和可用性配置文件以及通知配置文件。
日志报表
日志报表选项卡提供后端集监视器日志状态的综合报表,可下载为 CSV 文件。
告警日志
告警日志选项卡按时间顺序显示与后端集监视器相关的所有已触发告警列表。此选项卡有助于追踪告警历史和严重性,以评估问题并验证阈值设置。
监听器
监听器监视器的监视器数据如下。
概要
概要选项卡以图表形式提供事件时间线和指标的概述。
配置
在配置选项卡中查看监听器监视器的基本配置详情,例如负载均衡器名称、整体健康状态、区域和策略。
中断
中断选项卡提供中断的开始时间、结束时间、持续时间和备注(如有)等详情。
库存
从库存选项卡获取负载均衡器名称、区域和监视器许可类别等详情。在此选项卡中根据用户设置并查看阈值和可用性配置文件以及通知配置文件。
日志报表
日志报表选项卡提供监听器监视器日志状态的综合报表,可下载为 CSV 文件。
告警日志
告警日志选项卡按时间顺序显示与监听器监视器相关的所有已触发告警列表。此选项卡有助于追踪告警历史和严重性,以评估问题并验证阈值设置。
