帮助手册

如何在华为云中监控 GeminiDB Cassandra

Site24x7 为您的团队提供对 GeminiDB Cassandra 集群的全面可观测性,实时监控 CPU 和内存利用率、存储容量、读写延迟百分位、连接健康状态、待处理操作数、墓碑查询率和分区不均衡情况。

使用场景

  • 延迟控制:通过追踪写入 P95 延迟读取 P95 延迟写入最大延迟读取最大延迟,及早发现垃圾回收暂停或压缩延迟,从而降低尾部延迟。
  • 防止数据丢弃:通过监控丢弃的 Mutations丢弃的读取防止数据丢失,确保队列不会溢出、操作不会被丢弃。
  • 分区健康:通过追踪大分区数量不均衡表数量来维持数据均衡,这些指标反映了随时间累积的数据建模问题。在影响性能之前及早发现。

设置与配置

GeminiDB Cassandra 资源在华为云集成期间会自动发现并受到监控。请按照以下步骤启用监控:

  1. 前往 > 华为 > 添加华为监视器。按照步骤添加华为云监视器
  2. 在添加或编辑华为云监视器时,从服务/资源类型下拉菜单中选择 DDS,然后点击保存
  3. 前往 > 华为,选择已创建的华为监视器,然后点击 GeminiDB Cassandra 查看性能指标。

支持的指标

CPU 与内存

指标名称

描述

单位

CPU UsageGeminiDB Cassandra 实例当前消耗的 CPU 容量百分比。百分比
Memory UsageGeminiDB Cassandra 实例当前消耗的内存容量百分比。百分比

存储

指标名称

描述

单位

Disk Utilization实例当前消耗的磁盘存储总量百分比。百分比
Disk Total Size为实例预配的磁盘存储总容量。吉字节
Disk Used Size实例当前消耗的磁盘存储总量。吉字节
Data Load Size当前加载到 Cassandra 节点上的数据总大小。字节

网络

指标名称

描述

单位

Network Output Throughput实例通过网络每秒传输出去的数据速率。字节/秒
Network Input Throughput实例通过网络每秒接收的数据速率。字节/秒

连接

指标名称

描述

单位

Active ConnectionsCassandra 实例中当前建立的活跃客户端连接数。计数

操作

指标名称

描述

单位

Pending Writes当前排队等待处理的写操作数量。计数
Pending Reads当前排队等待处理的读操作数量。计数
Dropped Mutations由于内部队列溢出而丢弃的写 mutation 操作数量。计数
Dropped Reads由于内部队列溢出而丢弃的读操作数量。计数
Tombstone Query Rate每秒扫描墓碑行的查询速率。次/秒
Single Delete Rate每秒执行的单行删除操作速率。次/秒
Range Delete Rate每秒执行的范围删除操作速率。次/秒
Large Row Count每秒处理的大行操作速率。次/秒
Avg Limit Diff Count查询限制与实际返回行数之间的平均差值。计数
Avg Modify Request Size实例处理的修改请求的平均大小。字节
Avg Query Response Size实例返回的查询响应的平均大小。字节
Large Partition Count超过配置的大分区阈值的分区数量。计数
Imbalanced Table Count跨节点存在显著数据分布不均衡的表数量。计数

写入延迟

指标名称

描述

单位

Write LatencyCassandra 实例写操作的平均延迟。毫秒
Write Count监控周期内记录的写操作总数。计数
Write 1min Rate过去 1 分钟内每秒处理的写操作速率。次/秒
Write P75 Latency75% 的写操作完成时间低于该写入延迟值。毫秒
Write P95 Latency95% 的写操作完成时间低于该写入延迟值。毫秒
Write P99 Latency99% 的写操作完成时间低于该写入延迟值。毫秒
Write P999 Latency99.9% 的写操作完成时间低于该写入延迟值。毫秒
Write Max Latency单次写操作记录的最大写入延迟。毫秒

读取延迟

指标名称

描述

单位

Read LatencyCassandra 实例读操作的平均延迟。毫秒
Read Count监控周期内记录的读操作总数。计数
Read 1min Rate过去 1 分钟内每秒处理的读操作速率。次/秒
Read P75 Latency75% 的读操作完成时间低于该读取延迟值。毫秒
Read P95 Latency95% 的读操作完成时间低于该读取延迟值。毫秒
Read P99 Latency99% 的读操作完成时间低于该读取延迟值。毫秒
Read P999 Latency99.9% 的读操作完成时间低于该读取延迟值。毫秒
Read Max Latency单次读操作记录的最大读取延迟。毫秒

范围切片延迟

指标名称

描述

单位

Range Slice LatencyCassandra 实例范围切片操作的平均延迟。毫秒
Range Slice Count监控周期内记录的范围切片操作总数。计数
Range Slice 1min Rate过去 1 分钟内每秒处理的范围切片操作速率。次/秒
Range Slice P75 Latency75% 的操作完成时间低于该范围切片延迟值。毫秒
Range Slice P95 Latency95% 的操作完成时间低于该范围切片延迟值。毫秒
Range Slice P99 Latency99% 的操作完成时间低于该范围切片延迟值。毫秒

分布式文件卷

指标名称

描述

单位

DFV Write Delay分布式文件卷(DFV)层为实例引入的写入延迟。毫秒
DFV Read DelayDFV 层为实例引入的读取延迟。毫秒
Max Sync DelayCassandra 集群中各节点观察到的最大同步延迟。毫秒

阈值配置

您可以为所有 GeminiDB Cassandra 指标配置阈值和告警,以主动检测性能降级或连接问题。

  1. 前往管理 > 配置文件 > 阈值与可用性
  2. GeminiDB Cassandra 创建或编辑您的阈值配置文件
  3. 将配置文件分配给相应的监视器以触发告警。

IT 自动化

使用 Site24x7 的 IT 自动化解决 GeminiDB Cassandra 性能的常见问题:

  1. 前往管理 > IT 自动化模板,然后点击添加自动化模板
  2. 通过选择自动化类型(例如,服务器重启、清空队列)创建自动化规则。
  3. 将创建的规则映射到 GeminiDB Cassandra,以便在告警期间自动执行。

配置规则

使用配置规则简化跨 GeminiDB Cassandra 实例的批量设置。在发现新监视器时,自动分配阈值配置文件通知配置文件标签和监视器组。

相关文章

本文档对您有帮助吗?

您愿意帮助我们改进文档吗?请告诉我们哪些方面可以做得更好。


很抱歉本文档未能让您满意。我们希望了解可以从哪些方面改进您的体验。


感谢您抽出时间分享反馈。我们将利用您的反馈来改进在线帮助资源。

短链接已复制!