计算实例监控
Oracle 计算实例是 Oracle Cloud Infrastructure (OCI) 提供的虚拟机 (VM) 或裸机服务器,用于运行应用程序和工作负载。它是云中可扩展的计算资源,在操作系统、配置和硬件方面提供灵活性,支持各种使用场景,包括 Web 应用程序、数据库、大数据和高性能计算。
概述
Site24x7 与计算实例的集成支持对 OCI 中运行的虚拟机和裸机服务器实例进行全面监控。通过此集成,用户可以跟踪 CPU 利用率、内存消耗、网络流量和磁盘 I/O 操作等关键性能指标,实时了解计算资源的健康状况和性能。这确保了关键工作负载的高效运行,并在预定义阈值被突破时发出告警。

使用场景
在计算实例上部署关键业务应用程序的企业需要确保持续的性能和可用性。借助 Site24x7 集成,IT 团队可以实时监控多个计算实例的 CPU、内存和磁盘使用情况。
例如,如果某个计算实例的 CPU 利用率达到 90%,Site24x7 将触发告警,通知团队在性能下降之前扩展资源或优化工作负载。Site24x7 提供的历史数据还有助于容量规划,确保基础架构能够随着需求增长而有效扩展。
Site24x7 计算实例集成的优势
Site24x7 与计算实例的集成为您提供以下优势:
- 通过实时监控,在性能瓶颈和资源限制影响关键应用程序之前进行识别和处理。
- 获取 CPU、内存和磁盘使用情况的关键洞察,优化资源分配并提高效率。
- 根据预定义的性能指标阈值或检测到异常行为时,即时接收告警。
设置与配置
- Site24x7 使用跨租户访问通过 Site24x7 的租户用户监控您的资源。登录到您的 Site24x7 账户,创建特定策略,允许 Site24x7 查看您的资源而不影响安全性。
- 在添加 OCI 监视器页面,从要发现的服务列表中选择计算实例。
权限
确保 Site24x7 具有以下权限以监控计算实例:
- listInstances - INSTANCE_READ
- listVolumeAttachments -INSTANCE_READ
- getVolume - VOLUME_INSPECT
- listBootVolumeAttachments - VOLUME_INSPECT
- getBootVolume - VOLUME_INSPECT
- listVnicAttachments - VNIC_READ (inspect instance-family)
- getVnic - VNIC_READ
轮询频率
Site24x7 根据设置的轮询频率(从每分钟到每天一次)查询 OCI 服务级别 API,从计算实例监视器收集指标。
支持的指标
计算实例监视器支持的指标如下。
计算实例指标
仅当 OCI 控制台中启用了计算实例监控时,以下表中的指标才会显示。
| 指标名称 | 描述 | 统计方式 | 单位 |
|---|---|---|---|
| CPU 利用率 | CPU 的活动水平,以总时间的百分比表示。 | 平均值 | 百分比 |
| 磁盘读取字节数 | 读取吞吐量。 | 平均值 | 字节 |
| 磁盘写入字节数 | 写入吞吐量。 | 平均值 | 字节 |
| 磁盘读取 I/O | I/O 读取的活动水平。 | 平均值 | 数量 |
| 磁盘写入 I/O | I/O 写入的活动水平。 | 数量 | |
| 平均负载 | 一分钟内计算的平均系统负载。 | 平均值 | 数量 |
| 内存分配停顿 | 直接调用页面回收的次数。 | 平均值 | 数量 |
| 内存利用率 | 当前使用空间的百分比(以页面为单位)。 | 平均值 | 百分比 |
| 网络接收字节数 | 网络接收吞吐量。 | 平均值 | 字节 |
| 网络发送字节数 | 网络传输吞吐量。 | 平均值 | 字节 |
GPU 指标
下表中列出的指标适用于任何已启用监控的计算实例。要获取这些指标,请在实例上启用监控。
| 指标名称 | 描述 | 统计方式 | 单位 |
|---|---|---|---|
| GPU 利用率 | GPU 的活动水平,以总时间的百分比表示。 | 平均值 | 百分比 |
| GPU 内存利用率 | GPU 内存资源的使用百分比。 | 平均值 | 百分比 |
| GPU 功耗 | GPU 使用的功耗。 | 总和 | 整数 |
| GPU 温度 | 报告的 GPU 温度。 | 最大值 | 整数 |
| GPU ECC 单位错误 | 报告的 GPU 单位 ECC 错误数。 | 数量 | 整数 |
| GPU ECC 双位错误 | 报告的 GPU 双位 ECC 错误数。 | 数量 | 整数 |
故障指标
| 指标名称 | 描述 | 统计方式 | 单位 |
|---|---|---|---|
| 故障 | GPU 故障指示器。值为 0 表示没有故障;值为 1 表示检测到故障。 | 最大值 | 数量 |
RDMA 基础架构健康指标
下表中列出的指标适用于任何已启用监控的计算实例。要获取这些指标,请在实例上启用监控。
| 指标名称 | 描述 | 统计方式 | 单位 |
|---|---|---|---|
| RDMA 聚合网络发送字节数 | 在 RDMA 接口上传输的字节数。 | 总和 | 字节 |
| RDMA 聚合网络接收字节数 | 在 RDMA 接口上接收的字节数。 | 总和 | 字节 |
| RDMA 聚合网络发送数据包数 | 通过 RDMA 接口传输的数据包数。 | 总和 | 整数 |
| RDMA 聚合网络接收数据包数 | 通过 RDMA 接口接收的数据包数。 | 总和 | 整数 |
故障指标
| 指标名称 | 描述 | 统计方式 | 单位 |
|---|---|---|---|
| RDMA 链路速度故障 | 检测是否存在链路速度故障。值为 0 表示没有故障;值为 1 表示检测到故障。 | 最大值 | 数量 |
| RDMA PCIE 地址故障 | 检测是否存在 PCIE 地址故障。值为 0 表示没有故障;值为 1 表示检测到故障。 | 最大值 | 数量 |
| RDMA PCIE BER 检测故障 | 检测是否存在 PCIE BER 故障。值为 0 表示没有故障;值为 1 表示检测到故障。 | 最大值 | 数量 |
| RDMA PCIE 线缆抖动故障 | 检测是否存在 PCIE 线缆抖动故障。值为 0 表示没有故障;值为 1 表示检测到故障。 | 最大值 | 数量 |
| RDMA PCIE 线缆插拔故障 | 检测是否存在 PCIE 线缆插拔故障。值为 0 表示没有故障;值为 1 表示检测到故障。 | 最大值 | 数量 |
| RDMA PCIE 线缆状态故障 | 检测是否存在 PCIE 线缆状态故障。值为 0 表示没有故障;值为 1 表示检测到故障。 | 最大值 | 数量 |
其他支持的指标
| 指标名称 | 描述 | 统计方式 | 单位 |
|---|---|---|---|
|
基础架构健康状态 |
实例的健康问题数量。任何非零值均表示存在健康缺陷。此指标仅适用于裸机实例。 |
总和 |
数量 |
|
实例状态 |
正在运行的实例状态。值为零表示实例可用(正常运行)。值为一表示由于基础架构问题,实例不可用(宕机)。如果实例已停止,则该指标没有值。此指标仅适用于 VM 实例。 |
总和 |
数量 |
|
维护状态 |
实例的维护状态。值为零表示实例未计划基础架构维护事件。值为一表示实例已计划基础架构维护事件。此指标适用于 VM 实例和裸机实例。 |
最大值 |
数量 |
|
实例可访问性状态 |
VM 实例的可访问性状态。值为一表示由于基础架构或实例本身的问题,实例无响应。值为零表示未检测到可访问性问题。如果实例已停止,则该指标没有值。 |
最大值 |
数量 |
|
实例元数据请求 V1 与 V2 对比 |
对实例元数据服务的请求数,比较 V1 和 V2 端点的情况。 |
总和 |
数量 |
阈值配置
为计算实例监视器配置阈值:
- 登录您的 Site24x7 账户,导航至管理 > 配置文件 > 阈值与可用性。
点击添加阈值配置文件。 - 从监视器类型下拉菜单中选择计算实例,并在显示名称字段中提供合适的名称。
- 支持的指标显示在阈值配置部分。您可以为上述所有指标设置阈值。
- 点击保存。
计算实例中的状态传播
OCI 计算实例集成支持状态传播。这有助于通过将子资源告警路由到父级计算实例监视器来管理告警。
启用状态传播后:
- 块存储等子监视器的告警默认禁用。
- 除非您在编辑阈值页面将跳过告警设置为否,否则来自子监视器的状态变更告警将被抑制。
- 您将从父级计算监视器收到单条告警,而不是每个块存储卷都发送多条告警。
这可减少告警噪音,简化问题追踪。
支持状态传播的子监视器的告警会自动禁用。
例如,如果附加到计算实例的块存储出现问题,父级计算实例监视器将发出一条告警,指示实例中存在问题。
预测
使用预测功能估算 CPU 利用率、发送字节数和接收字节数指标的未来值。根据历史观测结果预测这些性能指标(资源使用量的衡量)的未来数据点,以便做出明智的决策。
IT 自动化
您可以添加自动化来启动、停止或重启计算实例。转到管理 > IT 自动化模板 (+) > 添加自动化模板。添加自动化后,您可以安排它们依次执行。
授权
每个计算实例监视器使用两个基本监视器许可证。
计算实例与服务器代理集成
Site24x7 无缝地将 OCI 计算实例与 Site24x7 服务器监控代理集成,为您的实例性能提供完整的可见性。此集成自动将实例级指标与深入的服务器洞察相结合,创建统一、全面的监控体验。
查看计算实例监视器数据
要监控您的自治数据库环境,请登录 Site24x7 账户,导航至云 > OCI > 计算实例。
监视器数据
计算实例监视器的监视器数据如下所示。
摘要
摘要选项卡提供事件时间线和指标的全面概述,通过富有洞察力的图表展示计算实例的性能。
块存储
计算实例会在同一分区中创建引导卷,还可以动态预配和管理块存储卷。块存储选项卡提供块存储和引导卷监视器列表及其可用性和状态。点击监视器名称超链接可查看块存储监视器数据。
配置详情
配置详情选项卡汇总了计算实例的基本信息,包括镜像 ID、创建时间、规格及其他配置详情。
中断
中断选项卡提供中断的开始时间、结束时间、持续时间和备注(如有)的详情。
资产清单
从资产清单选项卡中获取资源名称、区域、监视器授权类别等详情。阈值与可用性配置文件和通知配置文件可根据用户设置,并在此选项卡中查看。
日志报表
此选项卡提供计算实例监视器日志状态的汇总报表,可下载为 CSV 文件。
相关主题
