帮助手册

阿里云 Lindorm 监控集成

Site24x7 为部署在阿里云环境中的 Lindorm 实例提供全面的开箱即用监控。您可以实时了解系统资源使用情况、存储消耗、查询速率和延迟趋势,确保时序、搜索和表格工作负载的稳定运行。将阿里云账户与 Site24x7 集成后,所有关联的 Lindorm 实例将自动发现并持续纳入监控。

使用场景

  • 资源利用率控制:跟踪 CPU、内存和工作线程可用情况,防止系统过载。
  • 存储效率监控:监控热存储、冷存储和 Solr 存储的使用情况,管理容量并避免瓶颈。
  • 性能洞察:分析查询响应时间(P95、P99)、写入/读取延迟和 Solr 操作,提升效率。
  • 运营追踪:监控查询数量、LQL 操作和扫描请求,了解工作负载情况。
  • 搜索服务健康:通过监控搜索节点的内存使用和 CPU 空闲时间,确保搜索操作稳定运行。

设置与配置

  • 登录您的 Site24x7 账户,导航至云 > 阿里云 > 添加监视器
  • 编辑阿里云监视器页面,从服务类型列表中选择 Lindorm
  • 添加完成后,前往云 > 阿里云 > Lindorm 查看仪表板和性能指标。

支持的指标

CPU / 内存 / 系统资源指标

指标名称描述单位
CPU Wait I/O Time CPU 等待 I/O 操作所占的时间百分比。 百分比
Lindorm Multi CPU System Usage 多节点中系统/内核模式下的 CPU 利用率百分比。 百分比
Memory Used Percentage 系统内存使用率百分比。 百分比
Search Memory Used Percentage 搜索服务消耗的内存百分比。 百分比
Lindorm Multi Free Memory 各节点可用的空闲内存量。 字节
Lindorm Multi Buffer/Cache Memory 各节点缓冲区和缓存消耗的内存。 字节
Lindorm Multi CPU User Time 各节点用户模式下的 CPU 利用率百分比。 百分比
Search CPU Idle Percentage 搜索服务中 CPU 空闲时间百分比。 百分比
Search Free Memory 搜索服务可用的空闲内存。 字节
Lindorm Multi Worker Count Lindorm 操作可用的工作线程数。

存储利用率指标

指标名称描述单位
Lindorm Multi Cold Storage Used (%) 各节点已使用冷存储的百分比。 百分比
Multi Storage Used (%) 多节点已使用总存储的百分比。 百分比
Lindorm Multi Hot Storage Used (%) 各节点已使用热存储的百分比。 百分比
Lindorm Multi Total Storage (Bytes) 各节点可用的总存储容量。 字节
Lindorm Multi Used Storage (Bytes) 各节点已消耗的总存储量。 字节
Lindorm Multi Solr Storage Used (%) 已使用 Solr 存储的百分比。 百分比
Search Hot Storage Used (Bytes) 搜索服务已使用的热存储量。 字节
Lindorm Multi Table Hot Storage Used (Bytes) 各节点表格消耗的热存储量。 字节
Lindorm Multi Cold Storage Used (Bytes) 各节点已消耗的冷存储量。 字节
TSDB Hot Storage Used (Bytes) TSDB 服务消耗的热存储量。 字节

性能与延迟指标

指标名称描述单位
GET Response Time P99 GET 操作响应时间的 P99 百分位数。 毫秒
Lindorm Multi Write PUT Response Time (Max) 写入 PUT 操作的最大响应时间。 毫秒
Lindorm Multi Search Update Response Time P99 搜索更新请求响应时间的 P99 百分位数。 毫秒
Lindorm Multi PUT Response Time (Average) 各节点 PUT 操作的平均响应时间。 毫秒
Solr Select Response Time P99 Solr select 查询响应时间的 P99 百分位数。 毫秒
Lindorm Multi Search Select Response Time P95 搜索 select 查询响应时间的 P95 百分位数。 毫秒
Lindorm Multi Search Update Response Time (Mean) 搜索更新请求的平均响应时间。 毫秒
Solr Update Response Time P99 Solr 更新操作响应时间的 P99 百分位数。 毫秒
Lindorm Multi Read Response Time 各节点读取操作的平均响应时间。 毫秒
Write Response Time 写入操作的平均响应时间。 毫秒

查询速率与操作指标

指标名称描述单位
Search Update Count 执行的搜索更新操作数。
Lindorm Multi Solr Select Count 各节点执行的 Solr select 查询数。
LQL Select Operations 执行的 LQL select 操作数。
LQL Delete Operations 执行的 LQL delete 操作数。
Lindorm Multi LQL Upsert Operations 各节点执行的 LQL upsert 操作数。
Write Operations 执行的写入操作数。
Read Operations 执行的读取操作数。
Lindorm Multi GET Operations 各节点执行的 GET 操作数。
Lindorm Multi Write Delete Operations 各节点执行的宽列删除操作数。
Scan Operations 执行的扫描操作数。

阈值配置

  1. 前往管理 > 配置文件 > 阈值与可用性
  2. Lindorm 创建或编辑阈值配置文件。
  3. 将配置文件分配给相应的监视器以触发告警。

IT 自动化

Site24x7 的 IT 自动化工具可帮助自动解决性能下降问题。当发生阈值违规时,告警引擎会持续检查已定义阈值的系统事件,并执行映射的自动化操作。

  1. 前往管理 > IT 自动化模板
  2. 创建新的自动化规则。
  3. 将规则映射到监视器,以实现主动解决。

如何为监视器配置 IT 自动化

配置规则

通过 Site24x7 的配置规则,您可以为多个监视器设置阈值配置文件、通知配置文件、标签和监视器组等参数,并自动化监控资源的配置设置。当新的 Lindorm 监视器添加时,可自动应用这些设置。

如何添加配置规则

相关链接

本文档对您有帮助吗?

您愿意帮助我们改进文档吗?请告诉我们哪些方面可以做得更好。


很抱歉本文档未能让您满意。我们希望了解可以从哪些方面改进您的体验。


感谢您抽出时间分享反馈。我们将利用您的反馈来改进在线帮助资源。

短链接已复制!