阿里云 Kafka 监控集成
Site24x7 为阿里云 Kafka 提供全面的开箱即用监控支持。通过观测消息输入/输出、积压、延迟、网络利用率和磁盘使用率等指标,您可以实时洞察 Kafka 集群性能、客户端行为和 Broker 效率。将阿里云账号与 Site24x7 集成后,所有 Kafka 实例将自动被发现并持续受到监控。
使用场景
- 追踪生产者/消费者吞吐量:在实例、主题和消费组级别监控输入/输出速率,分析数据流。
- 检测消息积压:当集群或特定主题的消息积压异常增长时及时告警。
- 监控延迟和限流:识别请求处理或 Broker 端限流导致的性能下降。
- 确保资源利用健康:分析磁盘使用率、批次大小和连接负载,避免系统过载。
- 发现网络瓶颈:按节点追踪网络 I/O 速率和利用率,确保数据传输顺畅。
设置与配置
- 登录您的 Site24x7 账号,导航至云监控 > 阿里云 > 添加监视器。
- 在编辑阿里云监视器页面中,从服务类型列表中选择 Kafka。
- 添加完成后,前往云监控 > 阿里云 > Kafka,查看仪表板和性能指标。
支持的指标
消息输入与输出
| 指标名称 | 描述 | 单位 |
|---|---|---|
| Instance Message Input (v3) | 生产到实例的消息数量。 | Count/second |
| Instance Message Output (v3) | 从实例消费的消息数量。 | Count/second |
| Instance Message Input Ratio (v3) | 实例的消息输入速率。 | Percentage |
| Instance Message Output Ratio (v3) | 实例的消息输出速率。 | Percentage |
| Cluster Message Input (v3) | Kafka 集群的消息总输入量。 | Count/second |
| Group Message Output Count (v3) | 特定消费组消费的消息数量。 | Count/second |
| Topic Message Input Count (v3) | 生产到某主题的消息数量。 | Count/second |
| Topic Message Output Count (v3) | 从某主题消费的消息数量。 | Count/second |
消息积压
| 指标名称 | 描述 | 单位 |
|---|---|---|
| Message Accumulation (v3) | 集群中未消费的消息数量。 | Count |
| Message Accumulation | 等待消费的消息积压总量。 | Count |
| Message Accumulation (Single Topic) | 单个主题的消息积压量。 | Count |
请求与处理
| 指标名称 | 描述 | 单位 |
|---|---|---|
| Instance Requests Input (v3) | 实例收到的请求数量。 | Count/second |
| Instance Requests Output (v3) | 实例发出的响应数量。 | Count/second |
| Topic Requests Input (v3) | 针对特定主题的请求数量。 | Count/second |
| Topic Requests Output (v3) | 来自特定主题的响应数量。 | Count/second |
延迟与限流
| 指标名称 | 描述 | 单位 |
|---|---|---|
| Instance Throttle Time P99 (Input, v3) | 输入限流时间的第 99 百分位数。 | Milliseconds |
| Instance Throttle Time P99 (Output, v3) | 输出限流时间的第 99 百分位数。 | Milliseconds |
| Instance Fetch Throttle Queue Size (v2) | 实例上的 Fetch 限流队列大小。 | Count |
| Instance Produce Throttle Queue Size (v2) | 实例上的 Produce 限流队列大小。 | Count |
| Instance Batch Size (TP50, v2) | 生产者消息的中位批次大小。 | Bytes |
| Instance Batch Size (TP999, v2) | 生产者消息的第 99.9 百分位批次大小。 | Bytes |
网络
| 指标名称 | 描述 | 单位 |
|---|---|---|
| Instance Internet Receive Rate (v3) | 实例接收网络流量的速率。 | Bytes/second |
| Instance Internet Transmit Rate (v3) | 实例发送网络流量的速率。 | Bytes/second |
| Instance Internet Receive Utilization (By Node) | 按节点划分的网络接收利用率。 | Percentage |
| Instance Internet Transmit Utilization (By Node) | 按节点划分的网络发送利用率。 | Percentage |
磁盘与存储
| 指标名称 | 描述 | 单位 |
|---|---|---|
| Instance Disk Capacity | 分配给实例的磁盘总容量。 | GB |
| Instance Disk Log Size (v3) | 磁盘上 Kafka 日志文件的大小。 | GB |
连接数
| 指标名称 | 描述 | 单位 |
|---|---|---|
| Instance Maximum Connection Count (v3) | 允许的最大并发连接数。 | Count |
| Instance Total Connection Count (v3) | 活跃客户端连接总数。 | Count |
阈值配置
- 前往管理 > 配置文件 > 阈值与可用性。
- 为 Kafka 创建或编辑阈值配置文件。
- 将配置文件分配给相应的监视器以触发告警。
IT 自动化
Site24x7 的 IT 自动化工具可帮助自动解决性能下降问题。当发生阈值违规时,告警引擎会持续检查已定义阈值的系统事件,并执行关联的自动化操作。
- 前往管理 > IT 自动化模板。
- 创建新的自动化规则。
- 将规则关联到监视器,以实现主动解决问题。
配置规则
通过 Site24x7 的配置规则,您可以为多个监视器统一设置阈值配置文件、通知配置文件、标签和监视器组等参数,并自动化管理监控资源的配置。在添加新的 Kafka 监视器时,系统将自动应用这些配置。
