如何监控华为云中的文档数据库服务
Site24x7 为您的团队提供对华为云文档数据库服务(DDS)的全面可观测性,实时监控操作吞吐量、连接健康状况、CPU 和内存使用率、缓存行为、复制延迟和磁盘 I/O 性能。
使用场景
队列控制:写入队列增长同时 CPU 使用率升高,是写入吞吐量超出容量的迹象。
缓存弹性:WiredTiger 缓存使用百分比和脏字节跟踪揭示缓存饱和风险。
复制保障:复制延迟和复制余量显示副本节点(从节点)落后主数据库的程度以及操作日志剩余时间。
设置与配置
DDS 资源在华为云集成期间会被自动发现和监控。要启用监控,请按照以下步骤操作:
- 前往 Cloud > Huawei > Add Huawei Monitor。按照步骤添加华为云监视器。
- 在添加或编辑华为云监视器时,从服务/资源类型下拉菜单中选择 DDS,然后点击保存。
- 前往 Cloud > Huawei,选择已创建的华为云监视器,然后点击文档数据库服务。
支持的指标
操作
指标名称 | 描述 | 单位 |
| 每秒 COMMAND 语句数 | DDS 实例每秒执行命令操作的频率。 | 次/秒 |
| 每秒 DELETE 语句数 | DDS 实例每秒执行删除操作的频率。 | 次/秒 |
| 每秒 INSERT 语句数 | DDS 实例每秒执行插入操作的频率。 | 次/秒 |
| 每秒 QUERY 语句数 | DDS 实例每秒执行查询操作的频率。 | 次/秒 |
| 每秒 UPDATE 语句数 | DDS 实例每秒执行更新操作的频率。 | 次/秒 |
| 每秒 GETMORE 语句数 | DDS 实例每秒执行 getMore 游标操作的频率。 | 次/秒 |
连接
指标名称 | 描述 | 单位 |
| 活跃节点连接数 | 当前建立到 DDS 节点的活跃客户端连接数量。 | Count |
| 活跃节点连接使用率 | 当前正在使用的可用连接容量百分比。 | 百分比 |
| 活跃会话数 | 当前在 DDS 实例上打开的活跃会话数量。 | Count |
CPU 和内存
指标名称 | 描述 | 单位 |
| CPU 使用率 | DDS 实例当前消耗的 CPU 容量百分比。 | 百分比 |
| 内存使用率 | DDS 实例当前消耗的内存容量百分比。 | 百分比 |
| 常驻内存 | 当前 DDS 进程在 RAM 中常驻的物理内存量。 | MB |
| 虚拟内存 | 当前分配给 DDS 进程的虚拟内存总量。 | MB |
| SWAP 使用率 | DDS 实例当前消耗的交换空间百分比。 | 百分比 |
断言
指标名称 | 描述 | 单位 |
| 每秒常规断言数 | DDS 实例每秒引发常规断言错误的频率。 | 次/秒 |
| 每秒警告断言数 | DDS 实例每秒引发警告级别断言错误的频率。 | 次/秒 |
| 每秒消息断言数 | DDS 实例每秒引发消息级别断言错误的频率。 | 次/秒 |
| 每秒用户断言数 | DDS 实例每秒引发用户生成断言错误的频率。 | 次/秒 |
队列和游标
指标名称 | 描述 | 单位 |
| 等待锁的队列操作数 | 当前等待获取锁的操作总数。 | Count |
| 等待读锁的队列操作数 | 当前等待获取读锁的读操作数量。 | Count |
| 等待写锁的队列操作数 | 当前等待获取写锁的写操作数量。 | Count |
| 缺页异常数 | 请求的数据不在内存中时引发的缺页异常数量。 | Count |
| 慢查询数 | 当前超过配置慢查询阈值的查询数量。 | Count |
| 维护中游标数 | DDS 实例当前维护的打开游标数量。 | Count |
| 超时游标数 | 自上次服务器重启以来已超时的游标数量。 | Count |
WiredTiger
指标名称 | 描述 | 单位 |
| WiredTiger 缓存中的字节数 | WiredTiger 存储引擎缓存中当前保存的数据总量。 | MB |
| WiredTiger 缓存中跟踪的脏字节数 | WiredTiger 缓存中尚未刷新到磁盘的脏数据量。 | MB |
| 每秒写入缓存的字节数 | 每秒写入 WiredTiger 缓存的数据速率。 | 字节/秒 |
| 每秒从缓存写出的字节数 | 每秒从 WiredTiger 缓存写入磁盘的数据速率。 | 字节/秒 |
| WiredTiger 缓存使用百分比 | 当前使用的 WiredTiger 缓存总量百分比。 | 百分比 |
| WiredTiger 缓存脏页百分比 | WiredTiger 缓存中脏页所占的百分比。 | 百分比 |
| 检查点触发次数 | 监控期间触发的 WiredTiger 检查点刷新次数。 | Count |
| 集合总时间 | 监控期间所有集合级操作花费的总时间。 | 毫秒 |
| 集合读取时间 | 监控期间集合级读取操作花费的总时间。 | 毫秒 |
| 集合写入时间 | 监控期间集合级写入操作花费的总时间。 | 毫秒 |
复制
指标名称 | 描述 | 单位 |
| 复制余量 | 在主节点操作日志覆盖从节点复制位置之前的剩余时间。 | 秒 |
| 操作日志窗口 | 主节点上当前操作日志覆盖的总时间窗口。 | 小时 |
| 复制延迟 | 主节点和从节点在应用复制操作时的延迟。 | 秒 |
| 每秒已复制 COMMAND 语句数 | 在从节点上每秒应用的已复制命令操作频率。 | 次/秒 |
| 每秒已复制 UPDATE 语句数 | 在从节点上每秒应用的已复制更新操作频率。 | 次/秒 |
| 每秒已复制 DELETE 语句数 | 在从节点上每秒应用的已复制删除操作频率。 | 次/秒 |
| 每秒已复制 INSERT 语句数 | 在从节点上每秒应用的已复制插入操作频率。 | 次/秒 |
网络
指标名称 | 描述 | 单位 |
| 网络输出吞吐量 | DDS 实例每秒通过网络传输出去的数据速率。 | 字节/秒 |
| 网络输入吞吐量 | DDS 实例每秒通过网络接收的数据速率。 | 字节/秒 |
| 接收数据包错误率 | 包含错误的入站网络数据包百分比。 | 百分比 |
| 接收数据包丢失率 | 被丢弃的入站网络数据包百分比。 | 百分比 |
| 发送数据包错误率 | 包含错误的出站网络数据包百分比。 | 百分比 |
| 发送数据包丢失率 | 被丢弃的出站网络数据包百分比。 | 百分比 |
| 重传数据包数 | 因丢失或超时而重传的 TCP 数据包数量。 | Count |
| 重传率 | 需要重传的 TCP 数据包百分比。 | 百分比 |
| 已发送 RST 数据包数 | DDS 实例发送的用于强制关闭连接的 TCP RST 数据包数量。 | Count |
磁盘和 IO
指标名称 | 描述 | 单位 |
| 存储空间使用率 | DDS 实例当前消耗的磁盘存储总量百分比。 | 百分比 |
| IOPS | 磁盘每秒处理的读写 I/O 操作次数。 | 次/秒 |
| 磁盘读取吞吐量 | DDS 实例每秒从磁盘读取的数据速率。 | 字节/秒 |
| 磁盘写入吞吐量 | DDS 实例每秒写入磁盘的数据速率。 | 字节/秒 |
| 每次磁盘读取平均时间 | 完成单次磁盘读取操作所需的平均时间。 | 秒 |
| 每次磁盘写入平均时间 | 完成单次磁盘写入操作所需的平均时间。 | 秒 |
| 总存储空间 | 为 DDS 实例预配置的磁盘存储容量总量。 | GB |
| 已用存储空间 | DDS 实例当前消耗的磁盘存储总量。 | GB |
阈值配置
您可以为所有 DDS 指标配置阈值和告警,以主动检测性能下降或连接问题。
- 前往 Admin > Configuration Profiles > Threshold and Availability。
- 为 DDS 创建或编辑阈值配置文件。
- 将配置文件分配给相应的监视器以触发告警。
IT 自动化
使用 Site24x7 的 IT 自动化解决 DDS 性能中的常见问题:
- 前往 Admin > IT Automation Templates,然后点击添加自动化模板。
- 通过选择自动化类型(例如服务器重启、清空队列)来创建自动化规则。
- 将创建的规则映射到 DDS,以便在告警期间自动执行。
配置规则
使用配置规则简化跨 DDS 实例的批量设置。在发现新监视器时,自动分配阈值配置文件、通知配置文件、标签和监视器组。
