如何在华为云中监控 GeminiDB Cassandra
Site24x7 为您的团队提供对 GeminiDB Cassandra 集群的全面可观测性,实时监控 CPU 和内存利用率、存储容量、读写延迟百分位、连接健康状态、待处理操作数、墓碑查询率和分区不均衡情况。
使用场景
- 延迟控制:通过追踪写入 P95 延迟、读取 P95 延迟、写入最大延迟和读取最大延迟,及早发现垃圾回收暂停或压缩延迟,从而降低尾部延迟。
- 防止数据丢弃:通过监控丢弃的 Mutations 和丢弃的读取防止数据丢失,确保队列不会溢出、操作不会被丢弃。
- 分区健康:通过追踪大分区数量和不均衡表数量来维持数据均衡,这些指标反映了随时间累积的数据建模问题。在影响性能之前及早发现。
设置与配置
GeminiDB Cassandra 资源在华为云集成期间会自动发现并受到监控。请按照以下步骤启用监控:
- 前往云 > 华为 > 添加华为监视器。按照步骤添加华为云监视器。
- 在添加或编辑华为云监视器时,从服务/资源类型下拉菜单中选择 DDS,然后点击保存。
- 前往云 > 华为,选择已创建的华为监视器,然后点击 GeminiDB Cassandra 查看性能指标。
支持的指标
CPU 与内存
指标名称 | 描述 | 单位 |
| CPU Usage | GeminiDB Cassandra 实例当前消耗的 CPU 容量百分比。 | 百分比 |
| Memory Usage | GeminiDB Cassandra 实例当前消耗的内存容量百分比。 | 百分比 |
存储
指标名称 | 描述 | 单位 |
| Disk Utilization | 实例当前消耗的磁盘存储总量百分比。 | 百分比 |
| Disk Total Size | 为实例预配的磁盘存储总容量。 | 吉字节 |
| Disk Used Size | 实例当前消耗的磁盘存储总量。 | 吉字节 |
| Data Load Size | 当前加载到 Cassandra 节点上的数据总大小。 | 字节 |
网络
指标名称 | 描述 | 单位 |
| Network Output Throughput | 实例通过网络每秒传输出去的数据速率。 | 字节/秒 |
| Network Input Throughput | 实例通过网络每秒接收的数据速率。 | 字节/秒 |
连接
指标名称 | 描述 | 单位 |
| Active Connections | Cassandra 实例中当前建立的活跃客户端连接数。 | 计数 |
操作
指标名称 | 描述 | 单位 |
| Pending Writes | 当前排队等待处理的写操作数量。 | 计数 |
| Pending Reads | 当前排队等待处理的读操作数量。 | 计数 |
| Dropped Mutations | 由于内部队列溢出而丢弃的写 mutation 操作数量。 | 计数 |
| Dropped Reads | 由于内部队列溢出而丢弃的读操作数量。 | 计数 |
| Tombstone Query Rate | 每秒扫描墓碑行的查询速率。 | 次/秒 |
| Single Delete Rate | 每秒执行的单行删除操作速率。 | 次/秒 |
| Range Delete Rate | 每秒执行的范围删除操作速率。 | 次/秒 |
| Large Row Count | 每秒处理的大行操作速率。 | 次/秒 |
| Avg Limit Diff Count | 查询限制与实际返回行数之间的平均差值。 | 计数 |
| Avg Modify Request Size | 实例处理的修改请求的平均大小。 | 字节 |
| Avg Query Response Size | 实例返回的查询响应的平均大小。 | 字节 |
| Large Partition Count | 超过配置的大分区阈值的分区数量。 | 计数 |
| Imbalanced Table Count | 跨节点存在显著数据分布不均衡的表数量。 | 计数 |
写入延迟
指标名称 | 描述 | 单位 |
| Write Latency | Cassandra 实例写操作的平均延迟。 | 毫秒 |
| Write Count | 监控周期内记录的写操作总数。 | 计数 |
| Write 1min Rate | 过去 1 分钟内每秒处理的写操作速率。 | 次/秒 |
| Write P75 Latency | 75% 的写操作完成时间低于该写入延迟值。 | 毫秒 |
| Write P95 Latency | 95% 的写操作完成时间低于该写入延迟值。 | 毫秒 |
| Write P99 Latency | 99% 的写操作完成时间低于该写入延迟值。 | 毫秒 |
| Write P999 Latency | 99.9% 的写操作完成时间低于该写入延迟值。 | 毫秒 |
| Write Max Latency | 单次写操作记录的最大写入延迟。 | 毫秒 |
读取延迟
指标名称 | 描述 | 单位 |
| Read Latency | Cassandra 实例读操作的平均延迟。 | 毫秒 |
| Read Count | 监控周期内记录的读操作总数。 | 计数 |
| Read 1min Rate | 过去 1 分钟内每秒处理的读操作速率。 | 次/秒 |
| Read P75 Latency | 75% 的读操作完成时间低于该读取延迟值。 | 毫秒 |
| Read P95 Latency | 95% 的读操作完成时间低于该读取延迟值。 | 毫秒 |
| Read P99 Latency | 99% 的读操作完成时间低于该读取延迟值。 | 毫秒 |
| Read P999 Latency | 99.9% 的读操作完成时间低于该读取延迟值。 | 毫秒 |
| Read Max Latency | 单次读操作记录的最大读取延迟。 | 毫秒 |
范围切片延迟
指标名称 | 描述 | 单位 |
| Range Slice Latency | Cassandra 实例范围切片操作的平均延迟。 | 毫秒 |
| Range Slice Count | 监控周期内记录的范围切片操作总数。 | 计数 |
| Range Slice 1min Rate | 过去 1 分钟内每秒处理的范围切片操作速率。 | 次/秒 |
| Range Slice P75 Latency | 75% 的操作完成时间低于该范围切片延迟值。 | 毫秒 |
| Range Slice P95 Latency | 95% 的操作完成时间低于该范围切片延迟值。 | 毫秒 |
| Range Slice P99 Latency | 99% 的操作完成时间低于该范围切片延迟值。 | 毫秒 |
分布式文件卷
指标名称 | 描述 | 单位 |
| DFV Write Delay | 分布式文件卷(DFV)层为实例引入的写入延迟。 | 毫秒 |
| DFV Read Delay | DFV 层为实例引入的读取延迟。 | 毫秒 |
| Max Sync Delay | Cassandra 集群中各节点观察到的最大同步延迟。 | 毫秒 |
阈值配置
您可以为所有 GeminiDB Cassandra 指标配置阈值和告警,以主动检测性能降级或连接问题。
- 前往管理 > 配置文件 > 阈值与可用性。
- 为 GeminiDB Cassandra 创建或编辑您的阈值配置文件。
- 将配置文件分配给相应的监视器以触发告警。
IT 自动化
使用 Site24x7 的 IT 自动化解决 GeminiDB Cassandra 性能的常见问题:
- 前往管理 > IT 自动化模板,然后点击添加自动化模板。
- 通过选择自动化类型(例如,服务器重启、清空队列)创建自动化规则。
- 将创建的规则映射到 GeminiDB Cassandra,以便在告警期间自动执行。
配置规则
使用配置规则简化跨 GeminiDB Cassandra 实例的批量设置。在发现新监视器时,自动分配阈值配置文件、通知配置文件、标签和监视器组。
