阿里云 SelectDB 监控集成
Site24x7 为 SelectDB(阿里云上的高性能分析数据库引擎)提供开箱即用的监控支持。通过实时指标采集,Site24x7 帮助您掌握查询执行时间、压缩效率、集群健康状况以及 Pod 级别的资源使用情况。将阿里云账号与 Site24x7 集成后,SelectDB 集群将被自动发现并持续监控。
使用场景
- 查询延迟追踪:使用 P99 和平均延迟指标检测性能下降情况。
- 加载管道可观测性:监控加载作业的所有阶段,识别瓶颈。
- Pod 级别诊断:解决由 CPU、内存或磁盘 IOPS 峰值引起的问题。
- 集群健康洞察:主动处理节点故障或压缩效率问题。
安装与配置
- 登录您的 Site24x7 账户,导航至云监控 > 阿里云 > 添加监视器。
- 在编辑阿里云监视器页面,从服务类型列表中选择 SelectDB。
- 添加完成后,前往云监控 > 阿里云 > SelectDB,查看仪表板和性能指标。
支持的指标
查询性能与延迟
| 指标名称 | 描述 | 单位 |
|---|---|---|
| Cluster Query QPS | SelectDB 集群每秒处理的查询数量。 | 查询/秒 |
| Average Cluster Query Latency | 执行查询的平均耗时。 | 毫秒 |
| Cluster Query Latency (P99) | 查询执行的第 99 百分位延迟。 | 毫秒 |
| Cluster Query Success Rate | 成功执行查询的百分比。 | 百分比 |
| Instance Connection Count | 实例的活跃客户端连接数。 | 个 |
数据压缩与摄取
| 指标名称 | 描述 | 单位 |
|---|---|---|
| Cluster Data Load Rate | 数据加载到集群的速率。 | 行/秒 |
| Cluster Data Compaction Base Score | 表示压缩效率的基础层级评分。 | 评分 |
| Cluster Data Compaction Cumulative Score | 表示整体健康状况的累积压缩评分。 | 评分 |
Pod 级别资源使用情况
| 指标名称 | 描述 | 单位 |
|---|---|---|
| Pod CPU Utilization | Pod 使用的 CPU 百分比。 | 百分比 |
| Pod Memory Utilization | Pod 使用的内存百分比。 | 百分比 |
| Pod Memory Usage | Pod 实际使用的内存量。 | MB |
| Pod Disk IOPS (Write) | Pod 每秒执行的磁盘写入操作次数。 | IOPS |
| Pod Disk IOPS (Read) | Pod 每秒执行的磁盘读取操作次数。 | IOPS |
加载作业指标
| 指标名称 | 描述 | 单位 |
|---|---|---|
| Load Job Count (Broker — Loading) | 当前正在进行中的 Broker 加载作业数量。 | 个 |
| Load Job Count (Broker — Committed) | 已提交的 Broker 加载作业数量。 | 个 |
| Load Job Count (Broker — Pending) | 待执行的 Broker 加载作业数量。 | 个 |
| Insert Load Job Rate (Loading) | 数据加载过程中的 Insert 加载作业速率。 | 行/秒 |
| Insert Load Job Rate (Committed) | 已提交数据的 Insert 加载作业速率。 | 行/秒 |
| Stream Load Job Rate | 通过流式加载作业摄取数据的速率。 | 行/秒 |
| Load Job Count (Broker — Finished) | 已完成执行的 Broker 加载作业数量。 | 个 |
缓存效率
| 指标名称 | 描述 | 单位 |
|---|---|---|
| Cluster Cache Hit Rate | 读取操作期间的缓存命中率百分比。 | 百分比 |
| Cluster Cache I/O (Read) | 通过缓存处理的 I/O 读取操作次数。 | 操作/秒 |
| Cluster Cache I/O (Write) | 通过缓存处理的 I/O 写入操作次数。 | 操作/秒 |
集群健康状况
| 指标名称 | 描述 | 单位 |
|---|---|---|
| Cluster Failed Node Count | 集群中故障或无响应节点的数量。 | 个 |
| Remote Storage I/O (Read) | 从远程存储读取数据的速率。 | MB/秒 |
阈值配置
- 前往管理 > 配置文件 > 阈值与可用性。
- 为 SelectDB 创建或编辑阈值配置文件。
- 将配置文件分配给相应的监视器以触发告警。
IT 自动化
Site24x7 的 IT 自动化工具可帮助自动解决性能下降问题。当发生阈值违规时,告警引擎会持续检查已定义阈值的系统事件,并执行映射的自动化操作。
- 前往管理 > IT 自动化模板。
- 创建新的自动化规则。
- 将规则映射到监视器以实现主动解决。
配置规则
通过 Site24x7 的配置规则,您可以为多个监视器设置阈值配置文件、通知配置文件、标签和监视器组等参数,并自动化监控资源的配置设置。当新增 SelectDB 监视器时,可自动应用这些设置。
