帮助手册

阿里云 RocketMQ 监控集成

Site24x7 为阿里云 RocketMQ 提供全面监控,帮助您实时了解消息流、API 性能、消费者活动和消息积压情况。通过对流量、延迟和限流的详细可见性,您可以识别投递延迟、检测瓶颈,并在分布式消息系统中保持高吞吐量和高可靠性。将阿里云账户与 Site24x7 集成后,所有 RocketMQ 实例将被自动发现并持续监控。

使用场景

  • 吞吐量追踪:监控入站和出站流量利用率,确保 broker 最佳性能。
  • 消息延迟监控:检测高队列时间或消费者延迟,防止投递延误。
  • API 性能可见性:测量发送和接收 API TPS,优化客户端与 broker 的交互。
  • 故障处理:识别死信队列(DLQ)消息趋势和限流请求,提高可靠性。

设置与配置

  • 登录您的 Site24x7 账户,导航至云 > 阿里云 > 添加监视器
  • 编辑阿里云监视器页面,从服务类型列表中选择 RocketMQ
  • 添加完成后,前往云 > 阿里云 > RocketMQ 查看仪表板和性能指标。

支持的指标

流量与吞吐量利用率

指标名称描述单位
Instance Traffic RX Utilization RocketMQ 实例的入站流量利用率百分比。 百分比
Instance Traffic TX Utilization RocketMQ 实例的出站流量利用率百分比。 百分比
Instance Traffic RX RocketMQ 实例的入站流量速率。 字节/秒
Instance Traffic TX RocketMQ 实例的出站流量速率。 字节/秒
Instance Dropped Traffic RX 因限流或错误导致丢弃的入站流量。 字节/秒
Instance Dropped Traffic TX 因限流或错误导致丢弃的出站流量。 字节/秒
Instance Internet Flow Out Bandwidth 实例的出站公网带宽使用量。 字节/秒

API 调用与 TPS 性能

指标名称描述单位
Instance Send API Call TPS 实例级别每秒发送 API 调用次数。 次/秒
Instance Receive API Call TPS 实例级别每秒接收 API 调用次数。 次/秒
Instance API Call TPS 实例每秒 API 调用总次数。 次/秒
Send Message Count per Instance 实例发送的消息总数。
Send Message Count per Topic 每个 Topic 发送的消息数。
Receive Message Count per Instance 实例接收的消息总数。
Receive Message Count per Topic 每个 Topic 接收的消息数。
Receive Message Count per GID 每个消费者组(GID)接收的消息数。
Receive Message Count per GID Topic 每个 GID 和 Topic 接收的消息数。

消息积压与延迟

指标名称描述单位
Ready Messages 等待消费的就绪消息总数。
Ready Messages per GID Topic 每个 GID 和 Topic 的就绪消息数。
Ready Message Queue Time 消息在队列中等待被消费的平均时间。 毫秒
Ready Message Queue Time per GID Topic 每个 GID 和 Topic 就绪消息的平均队列等待时间。 毫秒
Consumer Lag 实例生产消息与消费消息之间的差值。
Consumer Lag per GID Topic 每个 GID 和 Topic 的消费者延迟。
Consumer Lag Latency per GID 每个 GID 因消费者延迟造成的延迟时间。 毫秒
Consumer Lag Latency per GID Topic 每个 GID 和 Topic 因消费者延迟造成的延迟时间。 毫秒

可靠性与故障处理

指标名称描述单位
Send DLQ Message Count per GID 每个 GID 发送到死信队列(DLQ)的消息数。
Send DLQ Message Count per GID Topic 每个 GID 和 Topic 发送到 DLQ 的消息数。
Instance Storage Size RocketMQ 实例使用的总存储空间。 字节
Instance Active Connection 实例的活跃连接总数。

限流与资源限制

指标名称描述单位
Throttled Send Requests per Instance 每个实例被限流的发送请求数。
Throttled Send Requests per Topic 每个 Topic 被限流的发送请求数。
Throttled Receive Requests per Instance 每个实例被限流的接收请求数。
Throttled Receive Requests per GID 每个消费者组(GID)被限流的接收请求数。
Throttled Receive Requests per GID Topic 每个 GID 和 Topic 被限流的接收请求数。

阈值配置

  1. 前往管理 > 配置文件 > 阈值与可用性
  2. RocketMQ 创建或编辑阈值配置文件。
  3. 将配置文件关联到相应的监视器以触发告警。

IT 自动化

Site24x7 的 IT 自动化工具可帮助自动解决性能降级问题。当发生阈值违规时,告警引擎会持续检查已定义阈值的系统事件,并执行映射的自动化操作。

  1. 前往管理 > IT 自动化模板
  2. 创建新的自动化规则。
  3. 将规则映射到监视器以实现主动解决。

如何为监视器配置 IT 自动化

配置规则

通过 Site24x7 的配置规则,您可以为多个监视器设置阈值配置文件、通知配置文件、标签和监视器组等参数,并自动化监控资源的配置设置。新增 RocketMQ 监视器时,这些设置将自动应用。

如何添加配置规则

相关链接

本文档对您有帮助吗?

您愿意帮助我们改进文档吗?请告诉我们哪些方面可以做得更好。


很抱歉本文档未能让您满意。我们希望了解可以从哪些方面改进您的体验。


感谢您抽出时间分享反馈。我们将利用您的反馈来改进在线帮助资源。

短链接已复制!