帮助手册

阿里云 Kafka 监控集成

Site24x7 为阿里云 Kafka 提供全面的开箱即用监控支持。通过观测消息输入/输出、积压、延迟、网络利用率和磁盘使用率等指标,您可以实时洞察 Kafka 集群性能、客户端行为和 Broker 效率。将阿里云账号与 Site24x7 集成后,所有 Kafka 实例将自动被发现并持续受到监控。

使用场景

  • 追踪生产者/消费者吞吐量:在实例、主题和消费组级别监控输入/输出速率,分析数据流。
  • 检测消息积压:当集群或特定主题的消息积压异常增长时及时告警。
  • 监控延迟和限流:识别请求处理或 Broker 端限流导致的性能下降。
  • 确保资源利用健康:分析磁盘使用率、批次大小和连接负载,避免系统过载。
  • 发现网络瓶颈:按节点追踪网络 I/O 速率和利用率,确保数据传输顺畅。

设置与配置

  • 登录您的 Site24x7 账号,导航至云监控 > 阿里云 > 添加监视器
  • 编辑阿里云监视器页面中,从服务类型列表中选择 Kafka
  • 添加完成后,前往云监控 > 阿里云 > Kafka,查看仪表板和性能指标。

支持的指标

消息输入与输出

指标名称描述单位
Instance Message Input (v3) 生产到实例的消息数量。 Count/second
Instance Message Output (v3) 从实例消费的消息数量。 Count/second
Instance Message Input Ratio (v3) 实例的消息输入速率。 Percentage
Instance Message Output Ratio (v3) 实例的消息输出速率。 Percentage
Cluster Message Input (v3) Kafka 集群的消息总输入量。 Count/second
Group Message Output Count (v3) 特定消费组消费的消息数量。 Count/second
Topic Message Input Count (v3) 生产到某主题的消息数量。 Count/second
Topic Message Output Count (v3) 从某主题消费的消息数量。 Count/second

消息积压

指标名称描述单位
Message Accumulation (v3) 集群中未消费的消息数量。 Count
Message Accumulation 等待消费的消息积压总量。 Count
Message Accumulation (Single Topic) 单个主题的消息积压量。 Count

请求与处理

指标名称描述单位
Instance Requests Input (v3) 实例收到的请求数量。 Count/second
Instance Requests Output (v3) 实例发出的响应数量。 Count/second
Topic Requests Input (v3) 针对特定主题的请求数量。 Count/second
Topic Requests Output (v3) 来自特定主题的响应数量。 Count/second

延迟与限流

指标名称描述单位
Instance Throttle Time P99 (Input, v3) 输入限流时间的第 99 百分位数。 Milliseconds
Instance Throttle Time P99 (Output, v3) 输出限流时间的第 99 百分位数。 Milliseconds
Instance Fetch Throttle Queue Size (v2) 实例上的 Fetch 限流队列大小。 Count
Instance Produce Throttle Queue Size (v2) 实例上的 Produce 限流队列大小。 Count
Instance Batch Size (TP50, v2) 生产者消息的中位批次大小。 Bytes
Instance Batch Size (TP999, v2) 生产者消息的第 99.9 百分位批次大小。 Bytes

网络

指标名称描述单位
Instance Internet Receive Rate (v3) 实例接收网络流量的速率。 Bytes/second
Instance Internet Transmit Rate (v3) 实例发送网络流量的速率。 Bytes/second
Instance Internet Receive Utilization (By Node) 按节点划分的网络接收利用率。 Percentage
Instance Internet Transmit Utilization (By Node) 按节点划分的网络发送利用率。 Percentage

磁盘与存储

指标名称描述单位
Instance Disk Capacity 分配给实例的磁盘总容量。 GB
Instance Disk Log Size (v3) 磁盘上 Kafka 日志文件的大小。 GB

连接数

指标名称描述单位
Instance Maximum Connection Count (v3) 允许的最大并发连接数。 Count
Instance Total Connection Count (v3) 活跃客户端连接总数。 Count

阈值配置

  1. 前往管理 > 配置文件 > 阈值与可用性
  2. Kafka 创建或编辑阈值配置文件。
  3. 将配置文件分配给相应的监视器以触发告警。

IT 自动化

Site24x7 的 IT 自动化工具可帮助自动解决性能下降问题。当发生阈值违规时,告警引擎会持续检查已定义阈值的系统事件,并执行关联的自动化操作。

  1. 前往管理 > IT 自动化模板
  2. 创建新的自动化规则。
  3. 将规则关联到监视器,以实现主动解决问题。

如何为监视器配置 IT 自动化

配置规则

通过 Site24x7 的配置规则,您可以为多个监视器统一设置阈值配置文件、通知配置文件、标签和监视器组等参数,并自动化管理监控资源的配置。在添加新的 Kafka 监视器时,系统将自动应用这些配置。

如何添加配置规则

相关链接

本文档对您有帮助吗?

您愿意帮助我们改进文档吗?请告诉我们哪些方面可以做得更好。


很抱歉本文档未能让您满意。我们希望了解可以从哪些方面改进您的体验。


感谢您抽出时间分享反馈。我们将利用您的反馈来改进在线帮助资源。

短链接已复制!