如何在华为云中监控分布式缓存服务
Site24x7 为华为云的分布式缓存服务(DCS)提供监控支持。通过监控 DCS 的内存、连接、命令和复制指标,为应用和基础设施团队提供对 Redis 缓存健康状态的全面可视化。
使用场景
防止级联故障:当缓存命中率低于 80% 时,Site24x7 会提前发出告警,让您能够预热缓存,避免大量缓存未命中压垮后端数据库。
保护关键数据:当驱逐键数量上升同时内存使用量增加时,系统会触发告警,让您能够在重要会话数据丢失之前扩展 DCS 实例。
提升性能:检测慢日志和增加的命令响应时间,帮助数据库管理员在影响应用吞吐量之前识别并优化昂贵的 Redis 命令。
设置与配置
DCS 资源在华为云集成期间会被自动发现并受到监控。如需启用监控,请按照以下步骤操作:
- 导航至云 > 华为 > 添加华为监视器。按照步骤添加华为云监视器。
- 在添加或编辑华为云监视器时,从服务/资源类型下拉菜单中选择 DCS,然后单击保存。
- 前往云 > 华为,然后选择已创建的华为监视器。
- 单击 DCS 查看性能指标。
支持的指标
客户端连接
指标名称 |
描述 |
单位 |
| Connected Clients | 当前与 DCS 实例建立的客户端连接数。 | Count |
| Blocked Clients | 当前因等待阻塞命令(例如 BLPOP)而被阻塞的客户端数量。 | Count |
| Rejected Connections | 因达到最大连接数限制而被拒绝的连接尝试总数。 | Count |
| Total Connections Received | 自启动以来 DCS 实例接受的客户端连接总数。 | Count |
| Connection Utilization | 当前已使用的最大允许连接数的百分比。 | Percentage |
资源利用率
指标名称 |
描述 |
单位 |
| CPU Usage | DCS 实例当前消耗的 CPU 资源瞬时百分比。 | Percentage |
| Average CPU Usage | 监控期间的平均 CPU 利用率。 | Percentage |
| Memory Usage | DCS 实例当前使用的总内存百分比。 | Percentage |
| Maximum Memory Usage | 监控期间记录的峰值内存利用率。 | Percentage |
内存指标
指标名称 |
描述 |
单位 |
| Used Memory | DCS 实例当前分配和使用的内存总量。 | Bytes |
| Used Memory - RSS | 操作系统分配给 DCS 进程的常驻集大小(RSS),包括内存碎片。 | Bytes |
| Peak Memory Usage | DCS 实例历史上消耗过的最大内存量。 | Bytes |
| Memory Used by Dataset | 直接用于存储数据的内存量。 | Bytes |
| Dataset Memory Percentage | 实际数据集占用的已用内存比例。 | Percentage |
| LUA Script Memory Usage | 已加载的 LUA 脚本所消耗的内存。 | Bytes |
| Memory Fragmentation Ratio | RSS 内存与已用内存的比率;显著高于 1.0 表示存在内存碎片。 | Ratio |
网络与带宽
指标名称 |
描述 |
单位 |
| Bandwidth Usage | 当前已使用的分配网络带宽百分比。 | Percentage |
| Instantaneous Input Bandwidth | DCS 实例当前的入站网络流量速率。 | KB/second |
| Instantaneous Output Bandwidth | DCS 实例当前的出站网络流量速率。 | KB/second |
| Total Network Input Bytes | 自启动以来 DCS 实例接收的数据累计量。 | Bytes |
| Total Network Output Bytes | 自启动以来 DCS 实例传输的数据累计量。 | Bytes |
命令与操作
指标名称 |
描述 |
单位 |
| Total Commands Processed | 自启动以来 DCS 实例处理的命令累计数量。 | Count |
| Instantaneous Operations Per Second | 当前每秒执行的命令数量。 | Count |
| Average Command Response Time | 处理并响应命令的平均时间。 | Milliseconds |
| Maximum Command Response Time | 监控期间观测到的最长命令响应时间。 | Milliseconds |
| Maximum Command Delay | 命令从提交到执行所经历的最大延迟。 | Milliseconds |
| Read Commands Count | 已执行的读取命令总数(例如 GET、HGET)。 | Count |
| Average Read Command Response Time | 读取操作的平均响应时间。 | Milliseconds |
| Write Commands Count | 已执行的写入命令总数(例如 SET、HSET)。 | Count |
| Average Write Command Response Time | 写入操作的平均响应时间。 | Milliseconds |
键与驱逐
指标名称 |
描述 |
单位 |
| Total Keys | 当前存储在 DCS 实例所有数据库中的键总数。 | Count |
| Evicted Keys | 根据驱逐策略自动删除以释放内存的键数量。 | Count |
| Expired Keys | 已达到存活时间(TTL)到期并被删除的键数量。 | Count |
| Keys with Expiration | 已设置活跃 TTL 过期时间的键数量。 | Count |
| Cache Hit Rate | 在缓存中成功找到所请求数据的键查询百分比。 | Percentage |
| Cache Misses | 在缓存中未能找到数据的键查询总次数。 | Count |
Pub/Sub 与复制
指标名称 |
描述 |
单位 |
| Pub/Sub Channels | 当前已订阅的活跃 Pub/Sub 频道数量。 | Count |
| Pub/Sub Patterns | 当前活跃的 Pub/Sub 模式订阅数量。 | Count |
| Master-Slave Replication Offset | 主节点与副本节点之间的字节偏移量差值,表示复制延迟。 | Bytes |
| Full Synchronizations | 主节点与副本节点之间执行的全量重同步操作总数。 | Count |
| Node Reboots | DCS 节点重启的次数。 | Count |
| Receive Flow Control Events | 入站网络流量被限速的事件计数。 | Count |
| Slow Log Present | 指示慢日志中是否存在执行缓慢的命令。 | Boolean |
| Slow Log Command Count | 慢日志中记录的命令数量。 | Count |
阈值配置
您可以为所有 DCS 指标配置阈值和告警,以主动检测性能降级或连接问题。
- 前往管理 > 配置文件 > 阈值与可用性。
- 为 DCS 创建或编辑阈值配置文件。
- 将配置文件分配给相应的监视器以触发告警。
IT 自动化
使用 Site24x7 的 IT 自动化自动解决常见的 DCS 性能问题:
- 前往管理 > IT 自动化模板,然后单击添加自动化模板。
- 通过选择自动化类型(例如服务器重启、清空队列)创建自动化规则。
- 将创建的规则映射到 DCS,以便在告警期间自动执行。
配置规则
使用配置规则简化跨 DCS 实例的批量设置。在发现新监视器时,自动分配阈值配置文件、通知配置文件、标签和监视器组。
