Amazon OpenSearch Service 监控集成
Amazon OpenSearch Service(前身为 Amazon Elasticsearch Service)使日志分析、数据搜索等场景中 OpenSearch 的部署和运维变得更加简便。通过 Site24x7 监控 Amazon OpenSearch Service,您可以全面掌握性能优化等运营方面的情况。
设置与配置
- 如果尚未完成,请通过创建 Site24x7 IAM 用户或在您的账户与 Site24x7 AWS 账户之间创建跨账户 IAM 角色,启用对 AWS 资源的访问权限。了解更多。
- 接下来,在集成 AWS 账户页面中,请确保在待发现服务字段中已勾选 OpenSearch 复选框。了解更多。
策略与权限
请确保分配给 Site24x7 实体的 IAM 策略中包含以下读取级别操作。了解更多。
- "es:DescribeElasticsearchDomain",
- "es:ListDomainNames",
- "es:ListTags",
- "logs:DescribeLogStreams",
- "logs:GetLogEvents",
- "es:DescribePackages"
轮询频率
Site24x7 按照设置的轮询频率(1 分钟至 1 天)查询 AWS 服务级别 API 和 CloudWatch API,以收集性能指标。了解更多。
阈值配置
前往管理 > 配置文件 > 阈值与可用性 (+) > 选择监视器类型。您可以为所有适用指标设置阈值。此外,您还可以在 OpenSearch 节点的阈值表单中静默非活动告警。
支持的指标
| 指标名称 | 描述 | 单位 | 统计方式 |
| Cluster Status |
Green - 表示集群中所有索引分片均已分配给节点。 Yellow - 表示所有索引的主分片均已分配给集群节点,但至少有一个索引的副本分片未分配。 Red - 表示至少有一个索引的主分片和副本分片均未分配给集群节点。 |
状态 | Minimum |
| CPU Utilization | 集群中数据节点所使用的 CPU 资源百分比。
作为 OpenSearch 节点指标时,相关统计方式为 Maximum。 |
百分比 | Average |
| Storage | 节点和集群的可用存储空间及已用空间。 | 节点单位为 MB。 集群单位为 GB。 |
Sum, Maximum |
| Nodes | Amazon OpenSearch 集群中的节点数量,包括专用主节点。 | Count | Minimum |
| Documents |
可搜索文档 - 集群中所有索引的可搜索文档总数。 可编辑文档 - 集群中所有索引中被标记为删除、不出现在搜索结果中的文档总数。 |
Count | Maximum |
| Cluster Index Writes Blocked |
集群阻止或接受传入请求。 0 - 集群接受请求,1 - 集群阻止请求。 |
状态 | Maximum |
| JVM Memory Pressure | 集群中所有数据节点使用的 Java 堆内存百分比。 | 百分比 | Maximum |
| Automated snapshot failure | 集群自动快照失败的次数。 | Count | Maximum |
| CPU Credit Balance | 集群中数据节点剩余的 CPU 积分。 | Count | Minimum |
| OpenSearchDashboardsHealthyNodes (previously KibanaHealthyNodes) | Kibana 的健康检查。
1 - 正常,0 - Kibana 不可访问。 |
状态 | Minimum |
| KMS Key Error | 用于加密静态数据的 KMS 客户主密钥已被禁用。 | 状态 | Maximum |
| KMS Key Inaccessible | 用于加密静态数据的 KMS 客户主密钥已被删除,或已撤销其对 Amazon ES 的授权。 | 状态 | Maximum |
| Invalid Host Header Requests | 向 OpenSearch 集群发出的包含无效(或缺失)主机头的 HTTP 请求数量。 | Count | Sum |
| Elastcisearch Requests | 向 OpenSearch 集群发出的请求数量。 | Count | Sum |
| Request Count | 向域发出的请求数量以及每个请求的 HTTP 响应代码(2xx、3xx、4xx、5xx)。 | Count | Sum |
| Used Storage(%) | OpenSearch 节点使用的磁盘空间百分比。 注意:此指标仅适用于 OpenSearch 节点。 |
Average | 百分比 |
EBS 卷指标
| 属性 | 描述 | 单位 | 统计方式 |
| Read Latency | EBS 卷读取操作的延迟(秒)。 | Count/sec | Average |
| Write Latency | EBS 卷写入操作的延迟(秒)。 | Count/sec | Average |
| Read Throughput | EBS 卷读取操作的吞吐量(字节/秒)。 | MB/sec | Average |
| Write Throughput | EBS 卷写入操作的吞吐量(字节/秒)。 | MB/sec | Average |
| Disk Queue Depth | EBS 卷待处理的输入/输出(I/O)请求数量。 | Count | Maximum |
| Read IOPS | EBS 卷读取操作每秒的 I/O 操作次数。 | Count/sec | Average |
| Write IOPS | EBS 卷写入操作每秒的 I/O 操作次数。 | Count/sec | Average |
专用主节点指标
| 属性 | 描述 | 单位 | 统计方式 |
| Master CPU Utilization | 专用主节点使用的 CPU 资源最大百分比。 | 百分比 | Average |
| Master Free Storage Space | 主节点的可用存储空间。
作为 OpenSearch 节点指标时适用。 |
MB | Average |
| Master JVM Memory Pressure | 集群中所有专用主节点使用的 Java 堆内存最大百分比。 | 百分比 | Maximum |
| Master CPU Credit Balance | 集群中专用主节点的可用 CPU 积分。 | Count | Minimum |
| Master Reachable From Node | MasterNotDiscovered 异常的健康检查。值为 1 表示正常,值为 0 表示集群健康状况有问题。 | Count | Sum |
| Master Sys Memory Utilization | 主节点内存的使用百分比。 | 百分比 | Maximum |
实例指标
| 属性 | 描述 | 单位 | 统计方式 |
| Indexing Latency | 分片完成一次索引操作所需的平均时间(毫秒)。
作为 OpenSearch 节点指标时适用。 |
毫秒 | Average |
| Indexing Rate | 每分钟的索引操作次数。调用 _bulk API 添加两个文档并更新两个计数算作四次操作,这些操作可能分布在一个或多个节点上。如果该索引有一个或多个副本,集群中的其他节点也会记录共计四次索引操作。文档删除不计入此指标。
作为 OpenSearch 节点指标时适用。 |
Ops/min | Average |
| Search Latency | 数据节点上的分片完成一次搜索操作所需的平均时间(毫秒)。
作为 OpenSearch 节点指标时适用。 |
毫秒 | Average |
| Search Rate | 数据节点上所有分片每分钟的搜索请求总数。单次 _search API 调用可能从多个不同分片返回结果。如果这些分片中有五个在同一节点上,即使客户端只发出了一次请求,该节点也会为此指标报告 5。
作为 OpenSearch 节点指标时适用。 |
Ops/min | Average |
| Sys Memory Utilization | 实例内存的使用百分比。
作为 OpenSearch 节点指标时,相关统计方式为 Maximum。 |
百分比 | Maximum |
| JVMGC Young Collection Count | "年轻代"垃圾回收的运行次数。次数持续增长是集群正常运行的一部分。
作为 OpenSearch 节点指标时,相关统计方式为 Maximum。 |
Count | Sum |
| JVMGC Young Collection Time | 集群执行"年轻代"垃圾回收所花费的时间(毫秒)。
作为 OpenSearch 节点指标时,相关统计方式为 Maximum。 |
毫秒 | Average |
| JVMGC Old Collection Count | "老年代"垃圾回收的运行次数。在资源充足的集群中,此数字应保持较小并且增长缓慢。
作为 OpenSearch 节点指标时,相关统计方式为 Maximum。 |
Count | Sum |
| JVMGC Old Collection Time | 集群执行"老年代"垃圾回收所花费的时间(毫秒)。
作为 OpenSearch 节点指标时,相关统计方式为 Maximum。 |
毫秒 | Average |
| Threadpool Force_merge Queue | 强制合并线程池中排队的任务数量。
作为 OpenSearch 节点指标时,相关统计方式为 Maximum。 |
Count | Sum |
| Threadpool Force_merge Rejected | 强制合并线程池中被拒绝的任务数量。如果此数字持续增长,请考虑扩展集群。
作为 OpenSearch 节点指标时,相关统计方式为 Maximum。 |
Count | Sum |
| Threadpool Force_merge Threads | 强制合并线程池的大小。
作为 OpenSearch 节点指标时,相关统计方式为 Maximum。 |
Count | Average |
| Threadpool Index Queue | 索引线程池中排队的任务数量。
作为 OpenSearch 节点指标时,相关统计方式为 Maximum。 |
Count | Sum |
| Threadpool Index Rejected | 索引线程池中被拒绝的任务数量。如果此数字持续增长,请考虑扩展集群。
作为 OpenSearch 节点指标时,相关统计方式为 Maximum。 |
Count | Sum |
| Threadpool Index Threads | 搜索线程池中排队的任务数量。
作为 OpenSearch 节点指标时,相关统计方式为 Maximum。 |
Count | Sum |
| Threadpool Search Queue | 搜索线程池中排队的任务数量。
作为 OpenSearch 节点指标时,相关统计方式为 Maximum。 |
Count | Sum |
| Threadpool Search Rejected | 搜索线程池中被拒绝的任务数量。
作为 OpenSearch 节点指标时,相关统计方式为 Maximum。 |
Count | Sum |
| Threadpool Search Threads | 搜索线程池中被拒绝的任务数量。
作为 OpenSearch 节点指标时,相关统计方式为 Maximum。 |
Count | Average |
| Threadpool Bulk Queue | 批量线程池中排队的任务数量。如果队列大小持续较高,请考虑扩展集群。
作为 OpenSearch 节点指标时,相关统计方式为 Maximum。 |
Count | Sum |
| Threadpool Bulk Rejected | 批量线程池中被拒绝的任务数量。
作为 OpenSearch 节点指标时,相关统计方式为 Maximum。 |
Count | Sum |
| Threadpool Bulk Threads | 搜索线程池中被拒绝的任务数量。
作为 OpenSearch 节点指标时,相关统计方式为 Maximum。 |
Count | Average |
| Threadpool Write Threads | 写入线程池的大小。
作为 OpenSearch 节点指标时,相关统计方式为 Maximum。 |
Count | Average |
| Threadpool Write Rejected | 写入线程池中被拒绝的任务数量。
作为 OpenSearch 节点指标时,相关统计方式为 Maximum。 |
Count | Sum |
| Threadpool Write Queue | 写入线程池中排队的任务数量。
作为 OpenSearch 节点指标时,相关统计方式为 Maximum。 |
Count | Sum |
Ultra Warm 指标
| 属性 | 描述 | 单位 | 统计方式 |
| Warm CPU Utilization | 集群中 UltraWarm 节点的 CPU 使用百分比。 | 百分比 | Average |
| Warm Free Storage Space | 可用的温存储空间(MB)。 | MB | Average |
| Warm JVM Memory Pressure | UltraWarm 节点使用的 Java 堆内存最大百分比。 | 百分比 | Max |
| Warm Searchable Documents | 集群中所有温索引的可搜索文档总数。 | Count | Sum |
| Warm Search Latency | UltraWarm 节点上的分片完成一次搜索操作所需的平均时间(毫秒)。 | 毫秒 | Average |
| Warm Search Rate | UltraWarm 节点上所有分片每分钟的搜索请求总数。单次 _search API 调用可能从多个不同分片返回结果。 | Ops/min | Average |
| Warm Storage Space Utilization | 集群正在使用的温存储空间总量。 | MB | Maximum |
| Hot Storage Space Utilization | 集群正在使用的热存储空间总量。 | MB | Maximum |
| Warm Sys Memory Utilization | 温节点内存的使用百分比。 | 百分比 | Maximum |
| Hot To Warm Migration Queue Size | 当前等待从热存储迁移到温存储的索引数量。 | Count | Maximum |
| Warm To Hot Migration Queue Size | 当前等待从温存储迁移到热存储的索引数量。 | Count | Maximum |
| Hot To Warm Migration Failure Count | 从热存储到温存储迁移失败的总次数。 | Count | Sum |
| Hot To Warm Migration Success Count | 从热存储到温存储迁移成功的总次数。 | Count | Sum |
预测
估算以下 OpenSearch 域性能指标的未来值,从而为扩容或扩展 AWS 基础设施做出明智决策。
- Deleted Documents
- CPU Utilization
- Free Storage Usage
- Cluster Used Space
- CPU Credit Balance
- Elastisearch Requests
- OpenSearch Requests
- Disk Queue Depth
- Read IOPS
- JVMGC Old Collection Time
- JVMGC Old Collection Count
- Sys Memory Utilization
同样,您也可以查看 OpenSearch 域节点以下指标的预测:
- CPU Utilization
- Free Storage Space
- Cluster Used Space
- Search Rate
- Sys Memory Utilization
- JVMGC Old Collection Time
- JVMGC Old Collection Count
OpenSearch 监控界面
概要
以时间序列图表的形式查看 OpenSearch 服务的性能指标。

卷详情
EBS 卷指标的详细图表,包括读/写 IOPS、读/写延迟和读/写吞吐量。
