阿里云 Lindorm 监控集成
Site24x7 为部署在阿里云环境中的 Lindorm 实例提供全面的开箱即用监控。您可以实时了解系统资源使用情况、存储消耗、查询速率和延迟趋势,确保时序、搜索和表格工作负载的稳定运行。将阿里云账户与 Site24x7 集成后,所有关联的 Lindorm 实例将自动发现并持续纳入监控。
使用场景
- 资源利用率控制:跟踪 CPU、内存和工作线程可用情况,防止系统过载。
- 存储效率监控:监控热存储、冷存储和 Solr 存储的使用情况,管理容量并避免瓶颈。
- 性能洞察:分析查询响应时间(P95、P99)、写入/读取延迟和 Solr 操作,提升效率。
- 运营追踪:监控查询数量、LQL 操作和扫描请求,了解工作负载情况。
- 搜索服务健康:通过监控搜索节点的内存使用和 CPU 空闲时间,确保搜索操作稳定运行。
设置与配置
- 登录您的 Site24x7 账户,导航至云 > 阿里云 > 添加监视器。
- 在编辑阿里云监视器页面,从服务类型列表中选择 Lindorm。
- 添加完成后,前往云 > 阿里云 > Lindorm 查看仪表板和性能指标。
支持的指标
CPU / 内存 / 系统资源指标
| 指标名称 | 描述 | 单位 |
|---|---|---|
| CPU Wait I/O Time | CPU 等待 I/O 操作所占的时间百分比。 | 百分比 |
| Lindorm Multi CPU System Usage | 多节点中系统/内核模式下的 CPU 利用率百分比。 | 百分比 |
| Memory Used Percentage | 系统内存使用率百分比。 | 百分比 |
| Search Memory Used Percentage | 搜索服务消耗的内存百分比。 | 百分比 |
| Lindorm Multi Free Memory | 各节点可用的空闲内存量。 | 字节 |
| Lindorm Multi Buffer/Cache Memory | 各节点缓冲区和缓存消耗的内存。 | 字节 |
| Lindorm Multi CPU User Time | 各节点用户模式下的 CPU 利用率百分比。 | 百分比 |
| Search CPU Idle Percentage | 搜索服务中 CPU 空闲时间百分比。 | 百分比 |
| Search Free Memory | 搜索服务可用的空闲内存。 | 字节 |
| Lindorm Multi Worker Count | Lindorm 操作可用的工作线程数。 | 个 |
存储利用率指标
| 指标名称 | 描述 | 单位 |
|---|---|---|
| Lindorm Multi Cold Storage Used (%) | 各节点已使用冷存储的百分比。 | 百分比 |
| Multi Storage Used (%) | 多节点已使用总存储的百分比。 | 百分比 |
| Lindorm Multi Hot Storage Used (%) | 各节点已使用热存储的百分比。 | 百分比 |
| Lindorm Multi Total Storage (Bytes) | 各节点可用的总存储容量。 | 字节 |
| Lindorm Multi Used Storage (Bytes) | 各节点已消耗的总存储量。 | 字节 |
| Lindorm Multi Solr Storage Used (%) | 已使用 Solr 存储的百分比。 | 百分比 |
| Search Hot Storage Used (Bytes) | 搜索服务已使用的热存储量。 | 字节 |
| Lindorm Multi Table Hot Storage Used (Bytes) | 各节点表格消耗的热存储量。 | 字节 |
| Lindorm Multi Cold Storage Used (Bytes) | 各节点已消耗的冷存储量。 | 字节 |
| TSDB Hot Storage Used (Bytes) | TSDB 服务消耗的热存储量。 | 字节 |
性能与延迟指标
| 指标名称 | 描述 | 单位 |
|---|---|---|
| GET Response Time P99 | GET 操作响应时间的 P99 百分位数。 | 毫秒 |
| Lindorm Multi Write PUT Response Time (Max) | 写入 PUT 操作的最大响应时间。 | 毫秒 |
| Lindorm Multi Search Update Response Time P99 | 搜索更新请求响应时间的 P99 百分位数。 | 毫秒 |
| Lindorm Multi PUT Response Time (Average) | 各节点 PUT 操作的平均响应时间。 | 毫秒 |
| Solr Select Response Time P99 | Solr select 查询响应时间的 P99 百分位数。 | 毫秒 |
| Lindorm Multi Search Select Response Time P95 | 搜索 select 查询响应时间的 P95 百分位数。 | 毫秒 |
| Lindorm Multi Search Update Response Time (Mean) | 搜索更新请求的平均响应时间。 | 毫秒 |
| Solr Update Response Time P99 | Solr 更新操作响应时间的 P99 百分位数。 | 毫秒 |
| Lindorm Multi Read Response Time | 各节点读取操作的平均响应时间。 | 毫秒 |
| Write Response Time | 写入操作的平均响应时间。 | 毫秒 |
查询速率与操作指标
| 指标名称 | 描述 | 单位 |
|---|---|---|
| Search Update Count | 执行的搜索更新操作数。 | 次 |
| Lindorm Multi Solr Select Count | 各节点执行的 Solr select 查询数。 | 次 |
| LQL Select Operations | 执行的 LQL select 操作数。 | 次 |
| LQL Delete Operations | 执行的 LQL delete 操作数。 | 次 |
| Lindorm Multi LQL Upsert Operations | 各节点执行的 LQL upsert 操作数。 | 次 |
| Write Operations | 执行的写入操作数。 | 次 |
| Read Operations | 执行的读取操作数。 | 次 |
| Lindorm Multi GET Operations | 各节点执行的 GET 操作数。 | 次 |
| Lindorm Multi Write Delete Operations | 各节点执行的宽列删除操作数。 | 次 |
| Scan Operations | 执行的扫描操作数。 | 次 |
阈值配置
- 前往管理 > 配置文件 > 阈值与可用性。
- 为 Lindorm 创建或编辑阈值配置文件。
- 将配置文件分配给相应的监视器以触发告警。
IT 自动化
Site24x7 的 IT 自动化工具可帮助自动解决性能下降问题。当发生阈值违规时,告警引擎会持续检查已定义阈值的系统事件,并执行映射的自动化操作。
- 前往管理 > IT 自动化模板。
- 创建新的自动化规则。
- 将规则映射到监视器,以实现主动解决。
配置规则
通过 Site24x7 的配置规则,您可以为多个监视器设置阈值配置文件、通知配置文件、标签和监视器组等参数,并自动化监控资源的配置设置。当新的 Lindorm 监视器添加时,可自动应用这些设置。
