阿里云 ApsaraDB ClickHouse 监控集成
Site24x7 为部署在阿里云环境中的 ApsaraDB ClickHouse 实例提供开箱即用的全面监控。深入了解存储性能、CPU 和内存使用情况、网络吞吐量及查询行为,确保实时分析工作负载始终保持优化状态并快速响应。将阿里云账户与 Site24x7 集成后,所有关联的 ClickHouse 实例将自动发现并持续监控。
使用场景
- 实时查询监控:跟踪 QPS、TPS 和失败查询数,确保分析工作负载平稳运行。
- 存储健康可视化:监控磁盘使用情况、冷存储数据和 IOPS,避免性能瓶颈。
- 内存与 CPU 管控:通过监控利用率来防止资源过载和内存分配失败。
- 连接池分析:了解 HTTP 和 TCP 连接使用情况,优化吞吐量。
- 合并操作跟踪:关注活跃合并操作和数据分区增长情况,管理存储碎片化问题。
设置与配置
- 登录您的 Site24x7 账户,导航至云服务 > 阿里云 > 添加监视器。
- 在编辑阿里云监视器页面,从服务类型列表中选择 ApsaraDB ClickHouse。
- 添加完成后,进入云服务 > 阿里云 > ApsaraDB ClickHouse,查看仪表板和性能指标。
支持的指标
内存与 CPU 指标
| 指标名称 | 说明 | 单位 |
|---|---|---|
| CPU 使用率 | ClickHouse 实例的 CPU 使用百分比。 | 百分比 |
| 内存使用率 | 内存使用百分比。 | 百分比 |
| 已用内存 | 实例实际消耗的内存量。 | MB |
| 内存使用量 | 进程的内存使用总量。 | MB |
| 合并/Mutation 失败次数 | 内存分配失败的次数。 | 次 |
| 总合并/Mutation 次数 | 内存分配的总次数。 | 次 |
存储与磁盘使用率指标
| 指标名称 | 说明 | 单位 |
|---|---|---|
| 已用磁盘空间 | 当前已使用的磁盘空间量。 | GB |
| 磁盘使用率 | 磁盘使用百分比。 | 百分比 |
| 磁盘读取速率 | 磁盘读取速率。 | KB/秒 |
| 磁盘写入速率 | 磁盘写入速率。 | KB/秒 |
| 磁盘读取 IOPS | 每秒读取操作次数。 | 次/秒 |
| 磁盘写入 IOPS | 每秒写入操作次数。 | IOPS |
| 冷存储数据大小 | 冷存储中存储的数据量。 | GB |
核心性能与查询指标
| 指标名称 | 说明 | 单位 |
|---|---|---|
| 每秒查询数(QPS) | 每秒处理的查询数量。 | 次/秒 |
| 每秒事务数(TPS) | 每秒处理的事务数量。 | 次/秒 |
| 总查询数 | 执行的查询总数。 | 次 |
| 失败查询数 | 执行失败的查询数量。 | 次 |
| 失败插入查询数 | 失败的插入操作数量。 | 次 |
| 失败查询(SELECT)数 | 失败的查询操作数量。 | 次 |
| 插入行数 | 已插入的行数。 | 行 |
| 插入数据大小 | 已插入数据的大小。 | 字节 |
| 并发查询数 | 当前并发查询的数量。 | 次 |
| 初始查询数 | 发起的查询数量。 | 次 |
网络与连接
| 指标名称 | 说明 | 单位 |
|---|---|---|
| 网络接收速率 | 通过网络接收数据的速率。 | KB/秒 |
| 网络发送速率 | 通过网络发送数据的速率。 | KB/秒 |
| 总连接数 | 活跃客户端连接数量。 | 个 |
| HTTP 连接数 | 正在使用的 HTTP 连接数量。 | 个 |
| TCP 连接数 | 正在使用的 TCP 连接数量。 | 个 |
数据分区与合并指标
| 指标名称 | 说明 | 单位 |
|---|---|---|
| 数据分区数量 | 存储引擎中活跃数据分区的数量。 | 个 |
| 合并操作次数 | 当前正在进行的合并操作数量。 | 次 |
阈值配置
- 进入管理 > 配置文件 > 阈值和可用性。
- 为 ApsaraDB ClickHouse 创建或编辑阈值配置文件。
- 将配置文件分配给相应监视器以触发告警。
IT 自动化
Site24x7 的 IT 自动化工具可帮助自动解决性能下降问题。当发生阈值突破时,告警引擎将持续检查已定义阈值的系统事件,并执行已映射的自动化操作。
- 进入管理 > IT 自动化模板。
- 创建新的自动化规则。
- 将规则映射到监视器以实现主动解决。
配置规则
通过 Site24x7 的配置规则,您可以为多个监视器设置阈值配置文件、通知配置文件、标签和监视器组等参数,并自动化监控资源的配置设置。在添加新的 ApsaraDB ClickHouse 监视器时,自动应用这些设置。
