如何在华为云中监控 Kafka
Site24x7 为华为云 Kafka 提供监控支持。通过监控性能和健康状况,您可以管理基于 Apache Kafka 的分布式消息流服务。监控 Kafka 指标可确保生产者和消费者的吞吐量保持健康,并防止消息积压导致处理延迟。
使用场景
防止数据丢失:当消息积压持续增加时,Site24x7 会提前告警团队,以便在消息过期前修复处理缓慢的消费者或 Broker 问题。
避免存储问题:当 Broker 磁盘使用量超过安全限制时,Site24x7 会发出警告,为团队争取时间调整保留策略或增加存储空间,防止新消息被拒绝。
维持管道性能:对处理时间上升发出告警,帮助团队重新平衡工作负载或扩展 Broker,保持消息流畅,防止下游消费者出现延迟。
设置与配置
Kafka 资源在华为云集成过程中会被自动发现并纳入监控。按照以下步骤启用监控:
- 导航至云 > 华为 > 添加华为监视器。了解如何添加华为云监视器。
- 在添加或编辑华为云监视器时,从服务/资源类型下拉菜单中选择 Kafka,然后点击保存。
- 导航至云 > 华为,选择已创建的华为监视器,然后点击 Kafka。
支持的指标
实例
指标名称 |
描述 |
单位 |
| Partitions | Kafka 实例中所有主题的分区总数。 | Count |
| Topics | Kafka 实例中创建的主题总数。 | Count |
| Accumulated Messages | 所有消费者组中待消费的消息总数。 | Count |
| Message Production | 所有主题的消息生产速率。 | Bytes/second |
| Message Consumption | 所有主题的消息消费速率。 | Bytes/second |
| Partitions Usage | 当前已使用的最大允许分区数百分比。 | 百分比 |
Broker
指标名称 |
描述 |
单位 |
| Message Creation Rate | 新消息写入 Broker 的速率。 | Bytes/second |
| Message Creation | Broker 摄入新消息数据的字节速率。 | Bytes/second |
| Message Retrieval | 消费者从 Broker 读取消息数据的字节速率。 | Bytes/second |
| Disk Capacity Usage | Broker 总磁盘容量中当前被消息数据占用的百分比。 | 百分比 |
| Memory Usage | Kafka Broker 进程当前使用的内存百分比。 | 百分比 |
| CPU Usage | Kafka Broker 当前消耗的 CPU 资源百分比。 | 百分比 |
| Connections | 与 Kafka Broker 建立的活跃客户端连接数。 | Count |
| JVM Heap Memory Usage | Kafka Broker 当前使用的 JVM 堆内存百分比。 | 百分比 |
| Message Size | 当前存储在 Broker 磁盘上的消息总大小。 | Bytes |
延迟
指标名称 |
描述 |
单位 |
| Average Message Creation Processing Duration | Broker 处理并确认来自生产者的生产请求所花费的平均时间。 | Milliseconds |
| Average Message Retrieval Processing Duration | Broker 处理并响应来自消费者的拉取请求所花费的平均时间。 | Milliseconds |
阈值配置
您可以为所有 Kafka 指标配置阈值和告警,以主动检测性能下降或连接问题。
- 转至管理 > 配置文件 > 阈值与可用性。
- 为 Kafka 创建或编辑阈值配置文件。
- 将配置文件分配给相应的监视器以触发告警。
IT 自动化
使用 Site24x7 的 IT 自动化解决 Kafka 性能的常见问题:
- 转至管理 > IT 自动化模板,然后点击添加自动化模板。
- 选择自动化类型(例如:服务器重启、清空队列)创建自动化规则。
- 将创建的规则映射到 Kafka,以在告警触发时自动执行。
配置规则
使用配置规则简化 Kafka 实例的批量配置。在发现新监视器时,自动分配阈值配置文件、通知配置文件、标签和监视器组。
