帮助手册

阿里云 PolarDB-X 监控集成

Site24x7 为阿里云 PolarDB-X 提供全面监控,深入了解计算资源、查询性能和分布式事务行为。通过对资源消耗、复制延迟和活跃会话数的洞察,您可以识别瓶颈、优化查询执行,并维护计算节点(CN)、数据节点(DN)和全局元数据服务(GMS)的集群稳定性。将阿里云账号与 Site24x7 集成后,所有 PolarDB-X 实例将自动被发现并持续监控。

使用场景

  • 查询和事务分析:监控 QPS、TPS 和慢查询趋势,以评估工作负载分布。
  • 资源优化:跟踪 CN、DN 和 GMS 节点的 CPU、内存和 IOPS 使用情况,防止过载。
  • 连接可见性:监控活跃连接和会话,识别饱和点。
  • 复制保障:检测从库延迟和 CDC 延迟,确保实时数据同步。

设置与配置

  • 登录您的 Site24x7 账号,导航至云 > 阿里云 > 添加监视器
  • 编辑阿里云监视器页面,从服务类型列表中选择 PolarDB-X
  • 添加完成后,前往云 > 阿里云 > PolarDB-X,查看仪表板和性能指标。

支持的指标

计算与查询性能

指标名称描述单位
QPS 每秒执行的查询数。 Count/second
TPS 每秒处理的事务数。 Count/second
Logical QPS 各计算节点的逻辑查询速率。 Count/second
Logical TPS (CN Node) 每个计算节点的逻辑事务速率。 Count/second
Logical Request Count (CN) 计算节点处理的逻辑请求总数。 Count
Logical Request Count (CN Node) 每个计算节点处理的逻辑请求总数。 Count
Logical Slow Queries (CN) 各计算节点检测到的慢查询总数。 Count
Logical Slow Queries (CN Node) 每个计算节点的慢查询数。 Count
Logical Response Time 各计算节点逻辑查询的平均响应时间。 Milliseconds
Logical Response Time (CN Node) 每个计算节点的逻辑查询平均响应时间。 Milliseconds
Physical QPS 各数据节点的物理查询速率。 Count/second
Physical Response Time 物理查询的平均响应时间。 Milliseconds
Slow Queries 集群中慢查询的总数。 Count

资源利用率

指标名称描述单位
CPU Utilization 所有节点的 CPU 使用率百分比。 Percentage
CPU Usage (CN) 计算节点的 CPU 使用率。 Percentage
CPU Usage (CN Node) 每个计算节点的 CPU 使用率。 Percentage
CPU Usage (DN) 数据节点的 CPU 使用率。 Percentage
Memory Usage (CN) 计算节点的内存使用率。 Percentage
Memory Usage (CN Node) 每个计算节点的内存使用率。 Percentage
Memory Usage (DN) 数据节点的内存使用率。 Percentage
Memory Usage (GMS) 全局元数据服务节点的内存使用率。 Percentage
Disk Usage (DN) 数据节点的磁盘使用率。 Percentage
Disk Usage (GMS) 全局元数据服务节点的磁盘使用率。 Percentage
IOPS Usage (DN) 数据节点每秒的 I/O 操作数。 Count/second
IOPS Usage (GMS) GMS 节点每秒的 I/O 操作数。 Count/second

连接与会话

指标名称描述单位
Connection Count 集群中活跃连接的总数。 Count
Active Connections (CN) 计算节点中活跃连接的数量。 Count
Active Connections (CN Node) 每个计算节点的活跃连接数。 Count
Active Sessions (GMS) GMS 节点上的活跃会话数。 Count
Active Sessions (DN) 数据节点上的活跃会话数。 Count
Connection Usage 连接使用率的总体百分比。 Percentage
Connection Usage (GMS) GMS 节点上的连接使用率百分比。 Percentage
Connection Usage (DN) 数据节点上的连接使用率百分比。 Percentage

复制与 CDC

指标名称描述单位
Slave Lag 主实例与备实例之间的复制延迟。 Milliseconds
GMS Slave Lag GMS 节点中观察到的复制延迟。 Milliseconds
DN Slave Lag 数据节点中观察到的复制延迟。 Milliseconds
CDC Dumper TPS CDC 转储器每秒处理的事务数。 Count/second
CDC Dumper Delay CDC 转储器进程中的时间延迟。 Milliseconds
CDC Dumper CPU Usage CDC 转储器进程的 CPU 使用率。 Percentage
CDC Dumper BPS CDC 转储器的数据传输速率(每秒字节数)。 Bytes/second

InnoDB 与事务

指标名称描述单位
InnoDB Log Writes 写入 InnoDB 存储引擎的日志次数。 Count
InnoDB Log Write Requests 向 InnoDB 发出的日志写入请求总数。 Count
InnoDB Row Inserts 插入 InnoDB 表的行数。 Count
InnoDB Row Updates 更新 InnoDB 表的行数。 Count
InnoDB Row Deletes 从 InnoDB 表删除的行数。 Count
InnoDB Rows Read 从 InnoDB 表读取的行数。 Count

阈值配置

  1. 前往管理 > 配置文件 > 阈值和可用性
  2. PolarDB-X 创建或编辑阈值配置文件。
  3. 将配置文件分配给相应的监视器以触发告警。

IT 自动化

Site24x7 的 IT 自动化工具有助于自动解决性能降级问题。发生阈值突破时,告警引擎持续检查已定义阈值的系统事件,并执行映射的自动化操作。

  1. 前往管理 > IT 自动化模板
  2. 创建新的自动化规则。
  3. 将规则映射到监视器,以实现主动解决。

如何为监视器配置 IT 自动化

配置规则

通过 Site24x7 的配置规则,您可以为多个监视器设置阈值配置文件、通知配置文件、标签和监视器组等参数,并自动化监控资源的配置设置。在添加新的 PolarDB-X 监视器时,自动应用这些设置。

如何添加配置规则

相关链接

本文档对您有帮助吗?

您愿意帮助我们改进文档吗?请告诉我们哪些方面可以做得更好。


很抱歉本文档未能让您满意。我们希望了解可以从哪些方面改进您的体验。


感谢您抽出时间分享反馈。我们将利用您的反馈来改进在线帮助资源。

短链接已复制!