帮助手册

如何在华为云中监控分布式缓存服务

Site24x7 为华为云的分布式缓存服务(DCS)提供监控支持。通过监控 DCS 的内存、连接、命令和复制指标,为应用和基础设施团队提供对 Redis 缓存健康状态的全面可视化。

使用场景

防止级联故障:当缓存命中率低于 80% 时,Site24x7 会提前发出告警,让您能够预热缓存,避免大量缓存未命中压垮后端数据库。

保护关键数据:当驱逐键数量上升同时内存使用量增加时,系统会触发告警,让您能够在重要会话数据丢失之前扩展 DCS 实例。

提升性能:检测慢日志和增加的命令响应时间,帮助数据库管理员在影响应用吞吐量之前识别并优化昂贵的 Redis 命令。

设置与配置

DCS 资源在华为云集成期间会被自动发现并受到监控。如需启用监控,请按照以下步骤操作:

  1. 导航至 > 华为 > 添加华为监视器。按照步骤添加华为云监视器
  2. 在添加或编辑华为云监视器时,从服务/资源类型下拉菜单中选择 DCS,然后单击保存
  3. 前往 > 华为,然后选择已创建的华为监视器。
  4. 单击 DCS 查看性能指标。

支持的指标

客户端连接

指标名称

描述

单位

Connected Clients 当前与 DCS 实例建立的客户端连接数。 Count
Blocked Clients 当前因等待阻塞命令(例如 BLPOP)而被阻塞的客户端数量。 Count
Rejected Connections 因达到最大连接数限制而被拒绝的连接尝试总数。 Count
Total Connections Received 自启动以来 DCS 实例接受的客户端连接总数。 Count
Connection Utilization 当前已使用的最大允许连接数的百分比。 Percentage

资源利用率

指标名称

描述

单位

CPU Usage DCS 实例当前消耗的 CPU 资源瞬时百分比。 Percentage
Average CPU Usage 监控期间的平均 CPU 利用率。 Percentage
Memory Usage DCS 实例当前使用的总内存百分比。 Percentage
Maximum Memory Usage 监控期间记录的峰值内存利用率。 Percentage

内存指标

指标名称

描述

单位

Used Memory DCS 实例当前分配和使用的内存总量。 Bytes
Used Memory - RSS 操作系统分配给 DCS 进程的常驻集大小(RSS),包括内存碎片。 Bytes
Peak Memory Usage DCS 实例历史上消耗过的最大内存量。 Bytes
Memory Used by Dataset 直接用于存储数据的内存量。 Bytes
Dataset Memory Percentage 实际数据集占用的已用内存比例。 Percentage
LUA Script Memory Usage 已加载的 LUA 脚本所消耗的内存。 Bytes
Memory Fragmentation Ratio RSS 内存与已用内存的比率;显著高于 1.0 表示存在内存碎片。 Ratio

网络与带宽

指标名称

描述

单位

Bandwidth Usage 当前已使用的分配网络带宽百分比。 Percentage
Instantaneous Input Bandwidth DCS 实例当前的入站网络流量速率。 KB/second
Instantaneous Output Bandwidth DCS 实例当前的出站网络流量速率。 KB/second
Total Network Input Bytes 自启动以来 DCS 实例接收的数据累计量。 Bytes
Total Network Output Bytes 自启动以来 DCS 实例传输的数据累计量。 Bytes

命令与操作

指标名称

描述

单位

Total Commands Processed 自启动以来 DCS 实例处理的命令累计数量。 Count
Instantaneous Operations Per Second 当前每秒执行的命令数量。 Count
Average Command Response Time 处理并响应命令的平均时间。 Milliseconds
Maximum Command Response Time 监控期间观测到的最长命令响应时间。 Milliseconds
Maximum Command Delay 命令从提交到执行所经历的最大延迟。 Milliseconds
Read Commands Count 已执行的读取命令总数(例如 GET、HGET)。 Count
Average Read Command Response Time 读取操作的平均响应时间。 Milliseconds
Write Commands Count 已执行的写入命令总数(例如 SET、HSET)。 Count
Average Write Command Response Time 写入操作的平均响应时间。 Milliseconds

键与驱逐

指标名称

描述

单位

Total Keys 当前存储在 DCS 实例所有数据库中的键总数。 Count
Evicted Keys 根据驱逐策略自动删除以释放内存的键数量。 Count
Expired Keys 已达到存活时间(TTL)到期并被删除的键数量。 Count
Keys with Expiration 已设置活跃 TTL 过期时间的键数量。 Count
Cache Hit Rate 在缓存中成功找到所请求数据的键查询百分比。 Percentage
Cache Misses 在缓存中未能找到数据的键查询总次数。 Count

Pub/Sub 与复制

指标名称

描述

单位

Pub/Sub Channels 当前已订阅的活跃 Pub/Sub 频道数量。 Count
Pub/Sub Patterns 当前活跃的 Pub/Sub 模式订阅数量。 Count
Master-Slave Replication Offset 主节点与副本节点之间的字节偏移量差值,表示复制延迟。 Bytes
Full Synchronizations 主节点与副本节点之间执行的全量重同步操作总数。 Count
Node Reboots DCS 节点重启的次数。 Count
Receive Flow Control Events 入站网络流量被限速的事件计数。 Count
Slow Log Present 指示慢日志中是否存在执行缓慢的命令。 Boolean
Slow Log Command Count 慢日志中记录的命令数量。 Count

阈值配置

您可以为所有 DCS 指标配置阈值和告警,以主动检测性能降级或连接问题。

  1. 前往管理 > 配置文件 > 阈值与可用性
  2. DCS 创建或编辑阈值配置文件。
  3. 将配置文件分配给相应的监视器以触发告警。

IT 自动化

使用 Site24x7 的 IT 自动化自动解决常见的 DCS 性能问题:

  1. 前往管理 > IT 自动化模板,然后单击添加自动化模板
  2. 通过选择自动化类型(例如服务器重启、清空队列)创建自动化规则。
  3. 将创建的规则映射到 DCS,以便在告警期间自动执行。

配置规则

使用配置规则简化跨 DCS 实例的批量设置。在发现新监视器时,自动分配阈值配置文件通知配置文件标签和监视器组。

相关文章

本文档对您有帮助吗?

您愿意帮助我们改进文档吗?请告诉我们哪些方面可以做得更好。


很抱歉本文档未能让您满意。我们希望了解可以从哪些方面改进您的体验。


感谢您抽出时间分享反馈。我们将利用您的反馈来改进在线帮助资源。

短链接已复制!