帮助手册

AWS Application Load Balancer 监控

Site24x7 与 AWS Application Load Balancer (ALB) 的集成,支持对 ALB 基础架构进行全面监控,深度可视化流量模式、请求指标、后端健康状况和延迟情况。通过该集成,您可以收集和分析关键性能指标、创建自定义阈值、配置告警并查看详细的仪表板。

该集成还会为与 ALB 关联的每个目标组创建专属子监视器,用于独立跟踪该目标组的性能和可用性指标,与主 ALB 监视器分开管理。

使用案例

某零售公司通过 ALB 后端的 EC2 实例在 AWS 上托管其电商网站。在一次季节性促销活动期间,流量激增,用户开始反馈页面加载缓慢和结账失败的问题。由于缺乏适当的监控,运维团队花费数小时排查日志、手动检查配置,最终发现一个目标组出现故障,导致负载均衡器无法正常分发流量。

如果部署了 Site24x7 的 ALB 集成,同样的问题将更早被发现。Site24x7 会针对不断上升的 5XX 错误和响应时间变慢触发告警。团队可立即在仪表板上查看哪个目标组出现故障以及流量的路由情况,从而快速解决问题,避免长时间中断并将对客户的影响降至最低。

通过将 ALB 监控与 Site24x7 集成,IT 团队可以实时了解负载均衡器性能,更快发现问题,在大流量促销等关键时期减少中断。

Site24x7 Application Load Balancer 集成的优势

将 AWS Application Load Balancer 环境与 Site24x7 集成,可获得以下优势:

  • 端到端可视化:监控 ALB 的所有方面,包括整体流量、错误率、延迟、处理时间、传输字节数和后端健康状况。
  • 主动告警: 在延迟、HTTP 错误码、不健康目标和队列长度超过阈值时,立即接收通知。
  • 健康与性能洞察:实时监控目标组健康状况、请求延迟和错误率。
  • 自动关联: 将 ALB 性能指标与其他 AWS 监视器(如 EC2、ECS、Lambda)关联,为更广泛的基础架构健康状况提供上下文参考。

设置与配置

  1. 登录您的 Site24x7 账户。
  2. 依次进入 Cloud > AWS > Integrate AWS Account,创建跨账户 IAM 角色,使 Site24x7 能够访问您的 AWS 资源。
  3. 集成 AWS 账户页面,根据需求从待发现服务列表中选择 Elastic Load Balancer

策略与权限

以下只读权限必须分配给已创建的 IAM 或跨账户角色,以便发现和监控 ALB。

  • "elasticloadbalancing:DescribeLoadBalancers",
  • "elasticloadbalancing:DescribeTags",
  • "elasticloadbalancing:DescribeListeners",
  • "elasticloadbalancing:DescribeAccountLimits"

监控目标组监视器还需要以下权限:

  • "elasticloadbalancing:DescribeTargetHealth",
  • "elasticloadbalancing:DescribeTargetGroups"

轮询间隔

Site24x7 按照设定的轮询频率(从每分钟一次到每天一次)查询 CloudWatch API 及其他服务级 API,以收集性能指标和元数据。

其他支持的性能计数器

支持的指标

Application Load Balancer

以下为 Application Load Balancer 监视器支持的指标。

指标名称 描述 统计 单位

请求数

衡量负载均衡器成功生成响应的已处理 IPv4 和 IPv6 请求数量。

总和与平均值

数量

活跃连接数

衡量从客户端到负载均衡器以及从负载均衡器到目标的并发 TCP 连接总数。

总和

数量

已拒绝连接数

衡量因 Application ELB 达到最大连接数限制而被拒绝的连接数量。

总和

数量

新建连接数

衡量从客户端到负载均衡器以及从负载均衡器到目标之间新建 TCP 连接的总数。

总和

数量

健康主机数

衡量每个可用区中注册到 Application Elastic Load Balancer 的健康目标数量。

最大值

数量

不健康主机数

衡量每个可用区中注册到 Application ELB 的不健康目标数量。

最大值

数量

ELB 4XX 错误数

Application ELB 生成的 HTTP 4xx 客户端错误码数量。

总和

数量

ELB 5XX 错误数

Application ELB 生成的 HTTP 5xx 服务器错误码数量。

总和

数量

客户端 TLS 协商错误数

衡量由客户端发起但未能与负载均衡器成功建立会话的 TLS 连接数量。

总和

数量

目标 TLS 协商错误数

衡量由负载均衡器发起但未能与目标成功建立会话的 TLS 连接数量。

总和

数量

平均延迟(该指标在 AWS 中称为目标响应时间)

衡量从请求离开 Application ELB 到收到响应的耗时(以秒为单位)。

平均值

目标连接错误数

衡量 Application ELB 与目标之间未能成功建立连接的数量。

总和

数量

已消耗的 LB 容量单位

衡量 Application ELB 使用的负载均衡器容量单位总数。

总和与平均值

数量

规则评估次数

衡量在给定请求速率下 Application ELB 处理的规则数量,按小时平均计算。

总和

数量

已处理字节数

衡量 Application ELB 处理的 IPv4 和 IPv6 请求的总字节数。

总和

字节

IPv6 请求数

衡量负载均衡器收到的 IPv6 请求总数。

总和

数量

IPv6 已处理字节数

衡量负载均衡器处理的 IPv6 请求总字节数。

总和

字节

去同步缓解模式不合规请求数

不符合 RFC 7230 的请求数量。

总和

数量

HTTP 固定响应数

成功执行的固定响应操作数量。

总和

数量

HTTP 重定向数

成功执行的重定向操作数量。

总和

数量

HTTP 重定向 URL 超限数

因响应 location 标头中的 URL 超过 8K 而未能完成的重定向操作数量。

总和

数量

ELB 3XX 数

源自负载均衡器的 HTTP 3XX 重定向码数量。

总和

数量

ELB 500 数

源自负载均衡器的 HTTP 500 错误码数量。

总和

数量

ELB 502 数

源自负载均衡器的 HTTP 502 错误码数量。

总和

数量

ELB 503 数

源自负载均衡器的 HTTP 503 错误码数量。

总和

数量

ELB 504 数

源自负载均衡器的 HTTP 504 错误码数量。

总和

数量

目标组

以下为目标组监视器支持的指标。

指标名称 描述 统计 单位

健康主机总数

衡量注册到 Gateway Load Balancer 的健康目标数量。

总和

数量

不健康主机总数

衡量挂载到 Gateway Load Balancer 的不健康目标数量。

总和

数量

每目标请求数

衡量每个目标组中每个目标收到的平均请求数量。

总和

数量

目标 HTTP 2XX 错误数 目标 HTTP 3XX 错误数 目标 HTTP 4XX 错误数 目标 HTTP 5XX 错误数

衡量 Application Load Balancer 生成的 HTTP 错误响应码总数。

总和

数量

异常主机数 存在异常的主机数量。 最大值 数量
BYO IP 使用率 IP 池使用率百分比。 平均值 百分比
已缓解主机数 正在进行缓解处理的目标数量。 最大值 数量
gRPC 请求数 通过 IPv4 和 IPv6 处理的 gRPC 请求数量。 总和 数量
请求数 通过 IPv4 和 IPv6 处理的请求数量。在选定目标之前被拒绝的请求不计入此指标。 总和 数量
区域转移主机数 因区域转移而被禁用的目标数量。 总和 数量
健康主机数 被视为健康的目标数量。 最小值 数量
HTTP 目标 2XX 响应码数 目标生成的 HTTP 2xx 响应码数量,不包括负载均衡器生成的响应码。 总和 数量
HTTP 目标 3XX 响应码数 目标生成的 HTTP 3xx 响应码数量,不包括负载均衡器生成的响应码。 总和 数量
HTTP 目标 4XX 响应码数 目标生成的 HTTP 4xx 响应码数量,不包括负载均衡器生成的响应码。 总和 数量
HTTP 目标 5XX 响应码数 目标生成的 HTTP 5xx 响应码数量,不包括负载均衡器生成的响应码。 总和 数量
每目标请求数 每个目标的平均请求数,不适用于 Lambda 函数目标。 总和 数量
目标连接错误数 负载均衡器与目标之间未能成功建立的连接数量,不适用于 Lambda 函数目标。 总和 数量
目标响应时间 从请求离开负载均衡器到目标开始发送响应标头的耗时。 平均值
目标 TLS 协商错误数 负载均衡器发起但未能与目标建立会话的 TLS 连接数量,不适用于 Lambda 函数目标。 总和 数量
不健康主机数 不健康的目标数量。 最大值 数量
健康 DNS 状态 满足 DNS 健康状态要求的可用区数量。 最大值 数量
健康路由状态 满足路由健康状态要求的可用区数量。 最大值 数量
不健康路由请求数 通过路由故障转移操作路由的请求数量。 总和 数量
不健康 DNS 状态 在 DNS 中被标记为不健康的可用区数量。 最小值 数量
不健康路由状态 不满足路由健康状态要求的可用区数量。 最小值 数量
Lambda 内部错误 因负载均衡器或 AWS Lambda 内部问题导致 Lambda 函数请求失败的数量。 总和 数量
Lambda 用户错误 因用户操作导致 Lambda 函数问题而请求失败的数量。 最大值 数量
活跃区域转移主机数 正在参与区域转移的目标数量。 最大值 数量
主机总数 目标组中的主机总数。 最小值 数量
健康主机百分比 健康主机的百分比。 最小值 百分比

Application Load Balancer 配置属性

属性名称 描述

ELB 名称

当前使用的 Application Load Balancer 名称。

DNS 名称

Application Load Balancer 的 DNS 名称。

地区

显示创建 Application Load Balancer 所在的地区名称。

ARN

指定分配给 Application Load Balancer 的唯一 Amazon 资源名称。

可用区

显示应用程序请求路由所在可用区的列表。

VPC ID

启动 Application ELB 的 Virtual Private Cloud ID。

ELB 类型

显示当前使用的负载均衡器类型。

创建时间

显示 Application Load Balancer 节点的创建时间。

安全组

列出挂载到 Application 类型 ELB 的安全组。

方案

指定当前使用的负载均衡器类型,包括面向互联网和内部两种。

阈值配置

为 Application Load Balancer 监视器配置阈值:

  1. 登录 Site24x7 账户,依次进入 Admin > Configuration Profiles > Threshold and Availability
  2. 点击 Add Threshold Profile
  3. 监视器类型下拉菜单中选择 Application Load Balancer 监视器类型。
  4. 显示名称字段中输入适当的名称。
  5. 支持的指标将显示在阈值配置部分,您可以为上述所有指标设置阈值
  6. 点击 Save

许可证

预测

预估以下 Application Load Balancer 性能指标的未来值,从而做出明智决策,决定是否需要增加容量或扩展 AWS 基础架构。

  • 请求数
  • 已拒绝连接数
  • 已消耗的 LB 容量单位
  • 目标请求数

查看 Application Load Balancer 监视器

要监控您的 Application Load Balancer 环境,请登录 Site24x7 账户,依次进入 Cloud > AWS > Application Load Balancer

监控数据

Application Load Balancer

以下为 Application Load Balancer 监视器的监控数据。

Application Load Balancer

Application Load Balancer 标签页以图表形式提供事件时间线和指标的概览。

目标组

目标组是一组目标(如 EC2 实例、IP 地址或 Lambda 函数),Application Load Balancer、Network Load Balancer 或 Gateway Load Balancer 将流量路由到这些目标。

目标组标签页中,您可以查看挂载到 Application Load Balancer 的目标组。此外,您还可以查看每个目标组中健康主机和不健康主机的数量。

点击单个列表项可查看目标组监视器的数据。

监控资源

查看与您的 Application Load Balancer 关联的已监控 ACM 监视器和其他资源的列表。点击单个列表项可查看与该资源关联的性能和资源使用情况统计数据。您也可以点击操作下的铅笔图标设置阈值,并在任何服务故障时接收通知。

说明

在当前工作流中,对于已集成的 Application Load Balancer 监视器,EC2 实例和其他资源将列于 Application Load Balancer 监视器的监控资源标签页下。在新流程(适用于新集成的监视器)中,EC2 实例将仅列于目标组监视器下,而 ACM 监视器将继续显示在 Application Load Balancer 监视器的监控资源标签页中。

拓扑视图

拓扑视图标签页提供以资源为中心的实时依赖关系图。它动态追踪您的 ALB 资源与周边 AWS 基础架构的实时连接关系,使您在告警触发时能够更快地定位根本原因。如果任何关联组件处于严重状态,则会在拓扑视图中相应标注,并附有中断原因,让您无需离开监视器页面即可精确找到故障点。与账户级别的拓扑视图不同,此标签页将可视化范围限定在单一资源,精准回答以下问题:此 ALB 资源连接到哪里?出现故障时会影响什么?您可以追踪从单个资源向上经由其主要父实体到服务类型、地区和 AWS 账户级别的完整依赖链。

Zia 预测

Zia 预测图表基于历史时间序列数据显示性能指标(资源使用量的度量)的未来数据点。系统使用 15 天的历史数据预测未来 7 天的指标使用情况。

配置详情

在此标签页中查看地区可用区ELB 类型DNS 名称等配置详情。

中断

中断标签页提供中断的开始时间、结束时间、持续时长及备注(如有)的详细信息。

清单

清单标签页获取 ELB 名称检查频率监视器许可证类别等详情。阈值和可用性配置文件以及通知配置文件可根据用户需求进行设置,并在此标签页查看。

日志报表

此标签页提供每个 Application Load Balancer 监视器日志状态的综合报表,可下载为 CSV 文件。

告警日志

此标签页按时间顺序显示与 Application Load Balancer 监视器相关的所有已触发告警列表,帮助您追踪告警历史记录和严重程度,以评估问题并验证阈值设置。

目标组

摘要

摘要标签页全面概览事件时间线和指标,通过直观的图表展示目标组环境中配置指标的性能和行为。

目标

目标标签页详细展示注册在 Application Load Balancer 下每个目标的健康状态。对于每个目标,您可以查看实例 ID可用区当前健康状态等详情,帮助您快速识别哪些目标出现故障及原因。您还可以查看每个可用区中健康、不健康、未使用、初始化中或正在排空的目标汇总,这有助于发现特定区域的问题,并了解流量分发的均衡情况。

属性

属性标签页显示控制目标组内流量处理方式的关键配置设置。

监控资源

查看与您的 Application Load Balancer 关联的已监控 EC2 实例列表。点击单个列表项可查看与该资源关联的性能和资源使用情况统计数据。您也可以点击操作下的铅笔图标设置阈值,并在任何服务故障时接收通知。

拓扑视图

拓扑视图标签页提供以资源为中心的实时依赖关系图。它动态追踪您的目标组资源与周边 AWS 基础架构的实时连接关系,使您在告警触发时能够更快地定位根本原因。如果任何关联组件处于严重状态,则会在拓扑视图中相应标注,并附有中断原因,让您无需离开监视器页面即可精确找到故障点。与账户级别的拓扑视图不同,此标签页将可视化范围限定在单一资源,精准回答以下问题:此目标组资源连接到哪里?出现故障时会影响什么?您可以追踪从单个资源向上经由其主要父实体到服务类型、地区和 AWS 账户级别的完整依赖链。

Zia 预测

Zia 预测图表基于历史时间序列数据显示性能指标(资源使用量的度量)的未来数据点。系统使用 15 天的历史数据预测未来 7 天的指标使用情况。

配置

在此标签页查看目标组配置健康检查配置等配置详情。

中断

中断标签页提供中断的开始时间、结束时间、持续时长及备注(如有)的详细信息。

清单

清单标签页获取 ELB 名称检查频率监视器许可证类别等详情。阈值和可用性配置文件以及通知配置文件可根据用户需求进行设置,并在此标签页查看。

日志报表

此标签页提供每个目标组监视器日志状态的综合报表,可下载为 CSV 文件。

告警日志

此标签页按时间顺序显示与目标组监视器相关的所有已触发告警列表,帮助您追踪告警历史记录和严重程度,以评估问题并验证阈值设置。

相关主题

本文档对您有帮助吗?

您愿意帮助我们改进文档吗?请告诉我们哪些方面可以做得更好。


很抱歉本文档未能让您满意。我们希望了解可以从哪些方面改进您的体验。


感谢您抽出时间分享反馈。我们将利用您的反馈来改进在线帮助资源。

短链接已复制!