阿里云 RocketMQ 监控集成
Site24x7 为阿里云 RocketMQ 提供全面监控,帮助您实时了解消息流、API 性能、消费者活动和消息积压情况。通过对流量、延迟和限流的详细可见性,您可以识别投递延迟、检测瓶颈,并在分布式消息系统中保持高吞吐量和高可靠性。将阿里云账户与 Site24x7 集成后,所有 RocketMQ 实例将被自动发现并持续监控。
使用场景
- 吞吐量追踪:监控入站和出站流量利用率,确保 broker 最佳性能。
- 消息延迟监控:检测高队列时间或消费者延迟,防止投递延误。
- API 性能可见性:测量发送和接收 API TPS,优化客户端与 broker 的交互。
- 故障处理:识别死信队列(DLQ)消息趋势和限流请求,提高可靠性。
设置与配置
- 登录您的 Site24x7 账户,导航至云 > 阿里云 > 添加监视器。
- 在编辑阿里云监视器页面,从服务类型列表中选择 RocketMQ。
- 添加完成后,前往云 > 阿里云 > RocketMQ 查看仪表板和性能指标。
支持的指标
流量与吞吐量利用率
| 指标名称 | 描述 | 单位 |
|---|---|---|
| Instance Traffic RX Utilization | RocketMQ 实例的入站流量利用率百分比。 | 百分比 |
| Instance Traffic TX Utilization | RocketMQ 实例的出站流量利用率百分比。 | 百分比 |
| Instance Traffic RX | RocketMQ 实例的入站流量速率。 | 字节/秒 |
| Instance Traffic TX | RocketMQ 实例的出站流量速率。 | 字节/秒 |
| Instance Dropped Traffic RX | 因限流或错误导致丢弃的入站流量。 | 字节/秒 |
| Instance Dropped Traffic TX | 因限流或错误导致丢弃的出站流量。 | 字节/秒 |
| Instance Internet Flow Out Bandwidth | 实例的出站公网带宽使用量。 | 字节/秒 |
API 调用与 TPS 性能
| 指标名称 | 描述 | 单位 |
|---|---|---|
| Instance Send API Call TPS | 实例级别每秒发送 API 调用次数。 | 次/秒 |
| Instance Receive API Call TPS | 实例级别每秒接收 API 调用次数。 | 次/秒 |
| Instance API Call TPS | 实例每秒 API 调用总次数。 | 次/秒 |
| Send Message Count per Instance | 实例发送的消息总数。 | 条 |
| Send Message Count per Topic | 每个 Topic 发送的消息数。 | 条 |
| Receive Message Count per Instance | 实例接收的消息总数。 | 条 |
| Receive Message Count per Topic | 每个 Topic 接收的消息数。 | 条 |
| Receive Message Count per GID | 每个消费者组(GID)接收的消息数。 | 条 |
| Receive Message Count per GID Topic | 每个 GID 和 Topic 接收的消息数。 | 条 |
消息积压与延迟
| 指标名称 | 描述 | 单位 |
|---|---|---|
| Ready Messages | 等待消费的就绪消息总数。 | 条 |
| Ready Messages per GID Topic | 每个 GID 和 Topic 的就绪消息数。 | 条 |
| Ready Message Queue Time | 消息在队列中等待被消费的平均时间。 | 毫秒 |
| Ready Message Queue Time per GID Topic | 每个 GID 和 Topic 就绪消息的平均队列等待时间。 | 毫秒 |
| Consumer Lag | 实例生产消息与消费消息之间的差值。 | 条 |
| Consumer Lag per GID Topic | 每个 GID 和 Topic 的消费者延迟。 | 条 |
| Consumer Lag Latency per GID | 每个 GID 因消费者延迟造成的延迟时间。 | 毫秒 |
| Consumer Lag Latency per GID Topic | 每个 GID 和 Topic 因消费者延迟造成的延迟时间。 | 毫秒 |
可靠性与故障处理
| 指标名称 | 描述 | 单位 |
|---|---|---|
| Send DLQ Message Count per GID | 每个 GID 发送到死信队列(DLQ)的消息数。 | 条 |
| Send DLQ Message Count per GID Topic | 每个 GID 和 Topic 发送到 DLQ 的消息数。 | 条 |
| Instance Storage Size | RocketMQ 实例使用的总存储空间。 | 字节 |
| Instance Active Connection | 实例的活跃连接总数。 | 个 |
限流与资源限制
| 指标名称 | 描述 | 单位 |
|---|---|---|
| Throttled Send Requests per Instance | 每个实例被限流的发送请求数。 | 次 |
| Throttled Send Requests per Topic | 每个 Topic 被限流的发送请求数。 | 次 |
| Throttled Receive Requests per Instance | 每个实例被限流的接收请求数。 | 次 |
| Throttled Receive Requests per GID | 每个消费者组(GID)被限流的接收请求数。 | 次 |
| Throttled Receive Requests per GID Topic | 每个 GID 和 Topic 被限流的接收请求数。 | 次 |
阈值配置
- 前往管理 > 配置文件 > 阈值与可用性。
- 为 RocketMQ 创建或编辑阈值配置文件。
- 将配置文件关联到相应的监视器以触发告警。
IT 自动化
Site24x7 的 IT 自动化工具可帮助自动解决性能降级问题。当发生阈值违规时,告警引擎会持续检查已定义阈值的系统事件,并执行映射的自动化操作。
- 前往管理 > IT 自动化模板。
- 创建新的自动化规则。
- 将规则映射到监视器以实现主动解决。
配置规则
通过 Site24x7 的配置规则,您可以为多个监视器设置阈值配置文件、通知配置文件、标签和监视器组等参数,并自动化监控资源的配置设置。新增 RocketMQ 监视器时,这些设置将自动应用。
