阿里云 PolarDB-X 监控集成
Site24x7 为阿里云 PolarDB-X 提供全面监控,深入了解计算资源、查询性能和分布式事务行为。通过对资源消耗、复制延迟和活跃会话数的洞察,您可以识别瓶颈、优化查询执行,并维护计算节点(CN)、数据节点(DN)和全局元数据服务(GMS)的集群稳定性。将阿里云账号与 Site24x7 集成后,所有 PolarDB-X 实例将自动被发现并持续监控。
使用场景
- 查询和事务分析:监控 QPS、TPS 和慢查询趋势,以评估工作负载分布。
- 资源优化:跟踪 CN、DN 和 GMS 节点的 CPU、内存和 IOPS 使用情况,防止过载。
- 连接可见性:监控活跃连接和会话,识别饱和点。
- 复制保障:检测从库延迟和 CDC 延迟,确保实时数据同步。
设置与配置
- 登录您的 Site24x7 账号,导航至云 > 阿里云 > 添加监视器。
- 在编辑阿里云监视器页面,从服务类型列表中选择 PolarDB-X。
- 添加完成后,前往云 > 阿里云 > PolarDB-X,查看仪表板和性能指标。
支持的指标
计算与查询性能
| 指标名称 | 描述 | 单位 |
|---|---|---|
| QPS | 每秒执行的查询数。 | Count/second |
| TPS | 每秒处理的事务数。 | Count/second |
| Logical QPS | 各计算节点的逻辑查询速率。 | Count/second |
| Logical TPS (CN Node) | 每个计算节点的逻辑事务速率。 | Count/second |
| Logical Request Count (CN) | 计算节点处理的逻辑请求总数。 | Count |
| Logical Request Count (CN Node) | 每个计算节点处理的逻辑请求总数。 | Count |
| Logical Slow Queries (CN) | 各计算节点检测到的慢查询总数。 | Count |
| Logical Slow Queries (CN Node) | 每个计算节点的慢查询数。 | Count |
| Logical Response Time | 各计算节点逻辑查询的平均响应时间。 | Milliseconds |
| Logical Response Time (CN Node) | 每个计算节点的逻辑查询平均响应时间。 | Milliseconds |
| Physical QPS | 各数据节点的物理查询速率。 | Count/second |
| Physical Response Time | 物理查询的平均响应时间。 | Milliseconds |
| Slow Queries | 集群中慢查询的总数。 | Count |
资源利用率
| 指标名称 | 描述 | 单位 |
|---|---|---|
| CPU Utilization | 所有节点的 CPU 使用率百分比。 | Percentage |
| CPU Usage (CN) | 计算节点的 CPU 使用率。 | Percentage |
| CPU Usage (CN Node) | 每个计算节点的 CPU 使用率。 | Percentage |
| CPU Usage (DN) | 数据节点的 CPU 使用率。 | Percentage |
| Memory Usage (CN) | 计算节点的内存使用率。 | Percentage |
| Memory Usage (CN Node) | 每个计算节点的内存使用率。 | Percentage |
| Memory Usage (DN) | 数据节点的内存使用率。 | Percentage |
| Memory Usage (GMS) | 全局元数据服务节点的内存使用率。 | Percentage |
| Disk Usage (DN) | 数据节点的磁盘使用率。 | Percentage |
| Disk Usage (GMS) | 全局元数据服务节点的磁盘使用率。 | Percentage |
| IOPS Usage (DN) | 数据节点每秒的 I/O 操作数。 | Count/second |
| IOPS Usage (GMS) | GMS 节点每秒的 I/O 操作数。 | Count/second |
连接与会话
| 指标名称 | 描述 | 单位 |
|---|---|---|
| Connection Count | 集群中活跃连接的总数。 | Count |
| Active Connections (CN) | 计算节点中活跃连接的数量。 | Count |
| Active Connections (CN Node) | 每个计算节点的活跃连接数。 | Count |
| Active Sessions (GMS) | GMS 节点上的活跃会话数。 | Count |
| Active Sessions (DN) | 数据节点上的活跃会话数。 | Count |
| Connection Usage | 连接使用率的总体百分比。 | Percentage |
| Connection Usage (GMS) | GMS 节点上的连接使用率百分比。 | Percentage |
| Connection Usage (DN) | 数据节点上的连接使用率百分比。 | Percentage |
复制与 CDC
| 指标名称 | 描述 | 单位 |
|---|---|---|
| Slave Lag | 主实例与备实例之间的复制延迟。 | Milliseconds |
| GMS Slave Lag | GMS 节点中观察到的复制延迟。 | Milliseconds |
| DN Slave Lag | 数据节点中观察到的复制延迟。 | Milliseconds |
| CDC Dumper TPS | CDC 转储器每秒处理的事务数。 | Count/second |
| CDC Dumper Delay | CDC 转储器进程中的时间延迟。 | Milliseconds |
| CDC Dumper CPU Usage | CDC 转储器进程的 CPU 使用率。 | Percentage |
| CDC Dumper BPS | CDC 转储器的数据传输速率(每秒字节数)。 | Bytes/second |
InnoDB 与事务
| 指标名称 | 描述 | 单位 |
|---|---|---|
| InnoDB Log Writes | 写入 InnoDB 存储引擎的日志次数。 | Count |
| InnoDB Log Write Requests | 向 InnoDB 发出的日志写入请求总数。 | Count |
| InnoDB Row Inserts | 插入 InnoDB 表的行数。 | Count |
| InnoDB Row Updates | 更新 InnoDB 表的行数。 | Count |
| InnoDB Row Deletes | 从 InnoDB 表删除的行数。 | Count |
| InnoDB Rows Read | 从 InnoDB 表读取的行数。 | Count |
阈值配置
- 前往管理 > 配置文件 > 阈值和可用性。
- 为 PolarDB-X 创建或编辑阈值配置文件。
- 将配置文件分配给相应的监视器以触发告警。
IT 自动化
Site24x7 的 IT 自动化工具有助于自动解决性能降级问题。发生阈值突破时,告警引擎持续检查已定义阈值的系统事件,并执行映射的自动化操作。
- 前往管理 > IT 自动化模板。
- 创建新的自动化规则。
- 将规则映射到监视器,以实现主动解决。
配置规则
通过 Site24x7 的配置规则,您可以为多个监视器设置阈值配置文件、通知配置文件、标签和监视器组等参数,并自动化监控资源的配置设置。在添加新的 PolarDB-X 监视器时,自动应用这些设置。
