帮助手册

Amazon FSx 监控集成

Amazon FSx 是 AWS 提供的一项完全托管服务,可在云中提供可扩展的高性能文件存储。它允许您启动支持流行文件系统类型的文件系统,使您能够轻松在云中运行传统的基于文件的应用程序,同时享有与本地存储系统相同的性能、安全性和功能。

Amazon FSx 提供以下文件系统类型以满足不同工作负载需求:Amazon FSx for Windows File Server、Amazon FSx for Lustre、Amazon FSx for NetApp ONTAP 以及 Amazon FSx for OpenZFS。

概述

Site24x7 为您的 FSx 文件系统提供深度洞察和主动监控,帮助您检测性能问题、优化使用效率并提升运营效率。您还可以跟踪数据存储库任务、备份、存储和卷等详细信息。 

除了提供 FSx 监视器之外,该集成还提供以下监视器,以便您有效监控托管在 AWS 基础设施中的 FSx 文件系统。 

  • FSx 存储虚拟机:Site24x7 为 Amazon FSx for NetApp ONTAP 文件系统中的存储虚拟机(SVM)提供全面监控,帮助您跟踪和优化虚拟化存储基础设施的性能、可用性和健康状况。 
  • FSx 卷:通过监控 NetApp ONTAP 和 OpenZFS 文件系统中的卷,Site24x7 可帮助您保持最佳存储性能、高效管理容量并保护关键数据。

使用场景

设想某组织使用 Amazon FSx for NetApp ONTAP 并将其与 Site24x7 集成以管理共享文件系统存储。当由于季节性流量激增导致文件系统 IOPS 出现尖峰时,Site24x7 会在影响用户体验之前发出告警,让团队能够及时扩展存储或采取措施均衡负载。

此外,Site24x7 对 Amazon FSx 的监控为该组织提供了关于性能、容量和数据保护的关键洞察,从而提升其云存储环境的可靠性、效率和成本控制能力。

Site24x7 Amazon FSx 集成的优势

将 Amazon FSx 环境与 Site24x7 集成,可获得以下优势:

  • 获得统一的监控解决方案,在一个平台上监控所有 FSx 环境中的各类文件系统。
  • 监控与 ONTAP 文件系统关联的 SVM,以及与 ONTAP 和 OpenZFS 文件系统关联的卷。
  • 为关键指标设置阈值,并在阈值被违反时接收告警。

设置与配置

1. 如果尚未完成,请通过以下方式之一将您的 AWS 账户与 Site24x7 的 AWS 账户连接:

  • 将 Site24x7 创建为 IAM 用户。
  • 创建跨账户 IAM 角色。 了解更多

2. 在集成 AWS 账户页面,勾选 Amazon FSx 对应的复选框 了解更多

策略与权限

Site24x7 使用多种 Amazon FSx API 来收集迁移服务的相关信息。请将 AWS 托管策略 ReadOnlyAccess 分配给 Site24x7 实体(IAM 用户或 IAM 角色),以帮助 Site24x7 收集指标和元数据。如果要分配自定义策略,请确保策略 JSON 中包含以下读取级别操作。 了解更多

  • "fsx:ListTagsForResource",
  • "fsx:DescribeBackups",
  • "fsx:DescribeDataRepositoryTasks",
  • "fsx:DescribeFileSystems"
  • "fsx:DescribeVolumes"
  • "fsx:DescribeStorageVirtualMachines"

轮询频率

Site24x7 根据配置的轮询频率查询 AWS 以收集 Amazon FSx 性能指标。默认轮询间隔为一小时。了解更多。

支持的指标

下表列出了 Amazon FSx 监控支持的指标。

文件系统性能指标

指标名称 描述 支持的文件系统类型 统计方式 单位
Data Read Bytes 文件系统读取操作的字节数。 所有 Sum MB
Data Write Bytes 文件系统写入操作的字节数。 所有 Sum MB
Data Write Operations 写入操作次数。 所有 Sum Count
Data Read Operations 读取操作次数。 所有 Sum Count
Metadata Operations 元数据操作次数。 所有 Sum Count
Free Storage Capacity 可用存储容量的大小或百分比。 所有 Average GB/百分比
Total Throughput 文件系统的总吞吐量。 所有 Average MB/sec
Read Throughput 文件系统的读取吞吐量。 所有 Average MB/sec
Write Throughput 文件系统的写入吞吐量。 所有 Average MB/sec
Total IOPS 每秒 I/O 操作总数。 所有 Average Count/sec
Read IOPS 每秒读取 I/O 操作总数。 所有 Average Count/sec
Write IOPS 每秒写入 I/O 操作总数。 所有 Average Count/sec
Metadata IOPS 每秒元数据 I/O 操作总数。 所有 Average Count/sec
Client Connections 客户端与文件服务器之间的活动连接数。 除 ONTAP 外的所有文件系统类型 Sum Count
Network Throughput Utilization 文件系统网络吞吐量的使用百分比。 所有 Average 百分比
CPU Utilization 文件服务器 CPU 资源的使用百分比。 所有 Average 百分比
Memory Utilization 文件服务器内存资源的使用百分比。 Windows 和 OpenZFS Average 百分比
File Server Disk Throughput Utilization 文件服务器与存储卷之间的磁盘吞吐量,以吞吐量容量确定的预配限制的百分比表示。 所有 Average 百分比
File Server Disk Throughput Balance 文件服务器与存储卷之间磁盘吞吐量的可用突发积分百分比。适用于吞吐量容量不超过 256 Mbps 的文件系统。 除 Lustre 外的所有文件系统类型 Average 百分比
File Server DiskIops Utilization 文件服务器与存储卷之间的磁盘 IOPS,以吞吐量容量确定的预配限制的百分比表示。 除 Lustre 外的所有文件系统类型 Average 百分比
File Server DiskIops Balance 文件服务器与存储卷之间磁盘 IOPS 的可用突发积分百分比。适用于吞吐量容量不超过 256 Mbps 的文件系统。 除 Lustre 外的所有文件系统类型 Average 百分比
Disk Read Bytes 访问存储卷的读取操作字节数。 除 Lustre 外的所有文件系统类型 Sum Bytes
Disk Write Bytes 访问存储卷的写入操作字节数。 除 Lustre 外的所有文件系统类型 Sum Bytes
Disk Read Operations 文件服务器访问存储卷的读取操作次数。 除 Lustre 外的所有文件系统类型 Sum Count
Disk Write Operations 文件服务器访问存储卷的写入操作次数。 除 Lustre 外的所有文件系统类型 Sum Count
Disk Throughput Utilization (仅 HDD)文件服务器与存储卷之间的磁盘吞吐量,以存储卷确定的预配限制的百分比表示。 Windows Average 百分比
Disk Throughput Balance (仅 HDD)存储卷磁盘吞吐量和磁盘 IOPS 的可用突发积分百分比。 Windows 和 OpenZFS Average 百分比
Disk IOPS Utilization (仅 SSD)文件服务器与存储卷之间的磁盘 IOPS,以存储卷确定的预配 IOPS 限制的百分比表示。 所有 Average 百分比
Deduplication Saved Storage 启用数据去重后节省的存储空间量。 Windows Sum Bytes
Logical Disk Usage 存储的逻辑数据量(未压缩)。 Lustre Sum Bytes
Physical Disk Usage 文件系统数据实际占用的存储量(已压缩)。 Lustre Sum Bytes
File Create Operations 文件创建操作总次数。 Lustre Sum Count
File Open Operations 文件打开操作总次数。 Lustre Sum Count
File Delete Operations 文件删除操作总次数。 Lustre Sum Count
Stat Operations stat 操作总次数。 Lustre Sum Count
Rename Operations 目录重命名操作总次数,包括原地目录重命名和跨目录重命名。 Lustre Sum Count
Directory Delete Operations 目录删除操作总次数。 Lustre Sum Count
Directory Create Operations 目录创建操作总次数。 Lustre Sum Count
NFS Bad Calls NFS 服务器远程过程调用(RPC)机制拒绝的调用次数。 OpenZFS Sum Count
File Server Cache Hit Ratio 对于 OpenZFS:缓存命中的百分比。对于 Single-AZ 2(非 HA 和 HA)文件系统,此指标报告内存缓存(ARC)和 NVMe 缓存(L2ARC)的综合命中率。对于 Single-AZ 1(非 HA 和 HA)文件系统,此指标仅报告 ARC 缓存的命中率。对于 ONTAP:文件系统 RAM 和 NVMe 缓存中满足的所有读请求百分比,数值越高表示越多读请求由文件系统读缓存满足。 OpenZFS 和 ONTAP Average 百分比
Compression Ratio 压缩存储使用量与未压缩存储使用量的比率。 OpenZFS Average 比率
Storage Efficiency Savings 存储效率功能(压缩、去重和压缩)节省的字节数。 ONTAP Sum Bytes
Logical Data Stored 文件系统上存储的逻辑数据总量,包含 SSD 层和容量池层。此指标包含快照和 FlexClone 的逻辑大小总计,但不包括通过压缩、紧凑和去重获得的存储效率节省。 ONTAP Sum Bytes
Network Sent Bytes 文件系统发送的字节数(网络 I/O)。 ONTAP Sum Bytes
Network Received Bytes 文件系统接收的字节数(网络 I/O)。 ONTAP Sum Bytes
Data Read Operation Time 客户端访问文件系统中数据的读取操作(网络 I/O)在文件系统内部花费的总时间之和。 ONTAP Sum Bytes
Data Write Operation Time 客户端访问文件系统中数据的写入操作(网络 I/O)在文件系统内部花费的总时间之和。 ONTAP Sum Bytes
Capacity Pool Read Bytes 从文件系统容量池层读取的字节数(网络 I/O)。 ONTAP Sum Bytes
Capacity Pool Write Bytes 写入文件系统容量池层的字节数(网络 I/O)。 ONTAP Sum Bytes
Capacity Pool Read Operations 从文件系统容量池层执行的读取操作次数(网络 I/O),对应一次容量池读取请求。 ONTAP Sum Count
Capacity Pool Write Operations 从容量池层对文件系统执行的写入操作次数(网络 I/O),对应一次写请求。 ONTAP Sum Count
Storage Capacity Utilization 文件系统存储容量的使用百分比。 所有 Average 百分比
Storage Used 文件系统已用存储容量总量(GB)。 所有 Sum Bytes
Read Operations 每次数据读取操作的平均数据读取操作时间。 ONTAP Average Seconds
Write Operations 每次数据写入操作的平均数据写入操作时间。 ONTAP Average Seconds
Metadata Operations 每次元数据操作的平均耗时。 ONTAP Average Seconds
Capacity Pool Tier 以字节为单位的已用物理存储容量,特定于存储层。此值包含存储效率功能(数据压缩和去重)节省量,StorageTier 为 StandardCapacityPool。 ONTAP Average Bytes
Primary Tier Capacity 存储层为 SSD 时所有数据类型的存储容量。 ONTAP Average Bytes
Primary Tier Used 以字节为单位的已用物理存储容量,特定于存储层。此值包含存储效率功能(数据压缩和去重)节省量,StorageTier 为 SSD 时此指标衡量 SSD 的逻辑空间使用量。 ONTAP Average Bytes
Primary Tier Avail 以字节为单位的可用或未使用物理存储容量,特定于存储层。 ONTAP Average Bytes
Metadata Operation Time 元数据操作所花费的总时间。 ONTAP Sum Seconds
Available Volumes 可用卷的数量。 OpenZFS 和 ONTAP Sum Count
Failed Volumes 失败卷的数量。 OpenZFS 和 ONTAP Sum Count
Misconfigured Volumes 配置错误卷的数量。 OpenZFS 和 ONTAP Sum Count
Created Volumes 已创建卷的数量。 OpenZFS 和 ONTAP Sum Count
Available SVM 可用 SVM(存储虚拟机)的数量。 ONTAP Sum Count
Failed SVM 失败 SVM 的数量。 ONTAP Sum Count
Misconfigured SVM 配置错误 SVM 的数量。 ONTAP Sum Count
Total Volumes 文件系统中卷的总数量。 OpenZFS 和 ONTAP Sum Count
Total SVM 文件系统中存储虚拟机的总数量。 ONTAP Sum Count
No Data Compression OpenZFS Volume 卷数据压缩方式可以是 NONE、ZSTD 或 LZ4。此指标显示未使用任何压缩方式的卷数量。 OpenZFS Sum Count
Zstandard (ZSTD) Compression OpenZFS Volume 使用 Zstandard(ZSTD)压缩算法压缩数据的卷数量。 OpenZFS Sum Count
LZ4 Compression OpenZFS Volume 使用 LZ4 压缩算法压缩数据的卷数量。 OpenZFS Sum Count
Clone Volume 引用源快照数据的卷数量,即从快照向新卷复制数据时使用克隆策略的卷数量。 OpenZFS Sum Count
Full Copy Volume 从快照向新卷复制所有数据的卷数量,即使用完整复制策略的卷数量。 OpenZFS Sum Count
Incremental Copy OpenZFS Volume 从快照向新卷复制数据时使用增量复制策略的卷数量。此选项仅适用于使用其他 FSx for OpenZFS 文件系统的快照更新现有卷的场景。 OpenZFS Sum Count

数据存储库任务性能指标

属性 描述 统计方式 数据类型
Succeeded Count 成功导出的文件数量。 Sum Count
Failed Count 导出失败的文件数量。 Sum Count
Total Count 待导出的文件总数量。 Sum Count

FSx 存储虚拟机性能指标

指标名称 描述 统计方式 单位
Total Volumes SVM 中卷的总数量。 Sum Count
Available Volumes 可用卷的数量。 Sum Count
Created Volume 已创建卷的数量。 Sum Count
Failed Volumes 失败卷的数量。 Sum Count
Misconfigured Volumes 配置错误卷的数量。 Sum Count
FlexVol Volume FlexVol 类型卷的数量。 Sum Count
FlexGroup Volume FlexGroup 类型卷的数量。 Sum Count
Unix Volume UNIX 类型安全风格卷的数量。卷的安全风格可以是 UNIX、NTFS 或 MIXED。 Sum Count
Ntfs Volume NTFS 类型安全风格卷的数量。 Sum Count
Mixed Volume MIXED 安全风格卷的数量。 Sum Count
RW (Read/Write) Ontap Volume RW 类型 ONTAP 卷的数量。 Sum Count
DP (Data-Protection) Ontap Volume DP 类型 ONTAP 卷的数量。 Sum Count
LS (Load-Sharing) Ontap Volume LS 类型 ONTAP 卷的数量。 Sum Count
No FlexCache Volume 卷的 FlexCache 端点类型可以是 NONE、ORIGIN 或 CACHE。此指标显示 FlexCache 端点类型为 None 的卷数量。 Sum Count
Origin FlexCache Volume FlexCache 端点类型为 Origin 的卷数量。 Sum Count
FlexCache Volume FlexCache 端点类型为 Cache 的卷数量。 Sum Count

FSx 卷性能指标

指标名称 描述 统计方式 单位
Data Read Bytes 客户端从卷读取的字节数(网络 I/O)。 Sum Bytes
Data Write Bytes 客户端写入卷的字节数(网络 I/O)。 Sum Bytes
Data Read Operations 客户端对卷执行的读取操作次数(网络 I/O)。 Sum Count
Data Write Operations 客户端对卷执行的写入操作次数(网络 I/O)。 Sum Count
Metadata Operations 客户端对卷执行的元数据活动 I/O 操作次数(网络 I/O)。 Sum Count
Data Read Operation Time 客户端访问卷中数据的读取操作(网络 I/O)在卷内部花费的总时间之和。 Sum Seconds
Data Write Operation Time 客户端访问卷中数据的写入操作(网络 I/O)在卷内部花费的总时间之和。 Sum Seconds
Metadata Operation Time 客户端访问卷中数据的元数据操作(网络 I/O)在卷内部花费的总时间之和。 Sum Seconds
Capacity Pool Read Bytes 从卷的容量池层读取的字节数(网络 I/O)。 Sum Bytes
Capacity Pool Write Bytes 写入卷的容量池层的字节数(网络 I/O)。 Sum Bytes
Capacity Pool Read Operations 从卷的容量池层执行的读取操作次数(网络 I/O),对应一次容量池读取请求。 Sum Count
Capacity Pool Write Operations 从容量池层对卷执行的写入操作次数(网络 I/O),对应一次写请求。 Sum Count
Storage Used 卷已用的逻辑存储容量。 Maximum Bytes
Storage Capacity 卷的大小(字节)。 Maximum Bytes
Storage Capacity Utilization 卷的存储容量使用率。 Average 百分比
Files Used 卷上已使用的文件数(文件数或 inode 数)。 Maximum Count
Files Capacity 卷上可创建的 inode 总数。 Maximum Count
Free Storage Space 卷未使用或空闲的逻辑存储容量。 Sum Bytes
Free Storage % 卷未使用逻辑存储容量的百分比。 Average 百分比
Total Throughput 数据读取和写入字节的总吞吐量。 Average MB/sec
Read Throughput 数据读取字节的总吞吐量。 Average MB/sec
Write Throughput 数据写入字节的总吞吐量。 Average MB/sec
Total IOPS 客户端对卷执行的操作次数(网络 I/O),包括每秒数据读取、写入操作和元数据操作。 Average Count/sec
Read IOPS 客户端对卷执行的每秒读取操作次数(网络 I/O)。 Average Count/sec
Write IOPS 客户端对卷执行的每秒写入操作次数(网络 I/O)。 Average Count/sec
Metadata IOPS 客户端对卷执行的每秒元数据操作次数(网络 I/O)。 Average Count/sec
User Data 已使用的逻辑空间量(字节)。此指标根据所用维度衡量不同类型的空间消耗,此处包含 StorageTier 为 All、DataType 为 User 的维度。 Average Bytes
Snapshot Data 已使用的逻辑空间量(字节)。此指标根据所用维度衡量不同类型的空间消耗,此处包含 StorageTier 为 All、DataType 为 Snapshot 的维度。 Average Bytes
Other Data 所有 StorageTier 中 DataType 为 Other 的已用逻辑空间量(字节)。 Average Bytes
Read Latency 每次数据读取操作的耗时。 Average Seconds
Write Latency 每次数据写入操作的耗时。 Average Seconds
Metadata Latency 每次元数据操作的耗时。 Average Seconds

阈值配置

为 Amazon FSx 监视器配置阈值:

  1. 登录 Site24x7,导航至管理 > 配置文件 > 阈值和可用性
  2. 点击添加阈值配置文件
  3. 监视器类型下拉菜单中选择适用的监视器类型,并在显示名称字段中填写适当的名称。适用的监视器类型为 FSx File SystemFSx Storage Virtual MachineFSx Volume
  4. 支持的指标将显示在阈值配置部分,您可以为上述所有指标设置阈值。
  5. 点击保存

Amazon FSx 监视器中的状态传播

Site24x7 的 Amazon FSx 集成支持状态传播,该功能通过将子资源的告警传递至父 Amazon FSx 监视器来简化告警管理。
启用状态传播后:

  • 默认情况下,FSx 存储虚拟机(SVM)和 FSx 卷等子监视器的告警将被禁用。
  • 默认情况下,来自子监视器的状态变更告警将被抑制。若要接收特定子监视器的告警邮件,请在子监视器的编辑阈值页面中将 跳过告警选项设置为。如果不修改此设置,子监视器的告警将保持禁用状态。
  • 您将收到来自父监视器的单一告警,而非来自每个子资源的单独告警,从而减少告警噪声并简化事件处理。
注意

支持状态传播的子监视器的告警将自动禁用。

例如,当 FSx 卷发生问题时,您不会收到该卷的单独告警,而是由父 Amazon FSx 监视器发出告警,提示 FSx 环境中存在问题。您随后可以进一步排查以确定受影响的卷或 SVM。

预测

估算以下性能指标的未来值,为扩容或扩展 AWS 基础设施做出明智决策。

  • Data Read Bytes
  • Data Write Bytes
  • Data Write Operations
  • Data Read Operations
  • Metadata Operations

IT 自动化

您可以为 Site24x7 支持的 AWS 服务添加自动化。登录 Site24x7,进入管理 > IT 自动化模板(+)> 添加自动化模板。添加自动化后,您可以安排它们按顺序执行。

您现在可以使用 Amazon FSx 自动化为文件系统创建数据存储库任务或备份。

许可

  • FSx 文件系统:每个 FSx 文件系统监视器均视为一个基础监视器
  • FSx 存储虚拟机:FSx 存储虚拟机监视器中,每五个监视器消耗一个基础监视器许可证。
  • FSx 卷:每个 FSx 卷监视器视为一个基础监视器。

查看 Amazon FSx 监视器数据

要监控您的 Amazon FSx,请登录 Site24x7 并导航至 > AWS > Amazon FSx

Site24x7 的 Amazon FSx 监控界面

Amazon FSx

摘要

通过时序图,全面了解每个 FSx 文件系统中发生的各类事件。本节提供数据读取操作、数据写入操作、元数据操作、吞吐量、读写字节数、IOPS 使用率等运营信息。

数据存储库任务

此处列出与存储库任务相关的所有元数据,包括任务 ID、任务状态、生命周期状态、失败原因(如有)以及任务创建时间、开始时间和结束时间戳。操作列支持您在数据存储库任务中断时设置告警或添加自动化。

备份详情

此处列出对任意 FSx 文件系统执行的备份详情,包括时间、类型、ID、备份生命周期状态、KMS 密钥 ARN 和 Active Directory ID 等信息。如需删除特定备份的监控设置,点击每个备份任务旁的删除选项即可。

中断

中断选项卡显示文件系统各种状态(如中断、警告、严重或维护)的历史记录,并提供中断的开始时间、结束时间、持续时长和备注(如有)等详情。您也可以在此手动添加中断记录并编辑或删除备注。

日志报表

在此查看 FSx 文件系统的审计日志数据,包括时间戳、状态、数据读取字节数、数据写入字节数以及数据读写操作等详情。

FSx 存储虚拟机 SVM

在 Amazon FSx 监视器中,NetApp ONTAP 文件系统类型将同时显示存储虚拟机选项卡。 

导航至存储虚拟机选项卡并点击所需监视器名称,即可查看以下 FSx 存储虚拟机监视器详情。 

摘要

摘要选项卡以图表形式提供事件时间线和指标概览。

选项卡显示与 SVM 关联的卷监视器列表及其状态和监视器类型。您可以点击首选监视器操作列中的编辑按钮来配置阈值。点击监视器名称可查看 FSx 卷监视器详情。

配置

配置选项卡显示 FSx 存储虚拟机监视器的配置详情,如存储虚拟机名称存储虚拟机 ID文件系统 ID存储虚拟机 ARN

中断

中断选项卡提供中断的开始时间、结束时间、持续时长和备注(如有)等详情。

清单

清单选项卡显示存储虚拟机 ID区域监视器许可类别等详情。可在此选项卡中根据用户设置并查看阈值和可用性配置文件以及通知配置文件

日志报表

日志报表选项卡提供每个 FSx SVM 日志状态的汇总报表,可下载为 CSV 文件。

FSx 卷

在 Amazon FSx 监视器中,NetApp ONTAP 和 OpenZFS 文件系统类型将显示选项卡。导航至选项卡并点击所需监视器名称,即可查看以下 FSx 卷监视器详情。

摘要

摘要选项卡以图表形式提供事件时间线和指标概览。

配置

配置选项卡显示 FSx 存储虚拟机监视器的配置详情,如卷名称、文件系统 ID卷 ARN

备份详情

备份详情选项卡显示 FSx 卷监视器执行的备份详情,包括备份的时间ID备份生命周期状态Active Directory ID 等信息。如需删除特定备份的监控设置,点击每个备份任务旁的删除选项即可。

Zia 预测

Zia 预测选项卡基于历史时序数据,以图表形式显示 FSx 卷监视器的预测数据。 

中断

中断选项卡提供中断的开始时间、结束时间、持续时长和备注(如有)等详情。

清单

清单选项卡显示存储虚拟机 ID区域监视器许可类别等详情。可在此选项卡中根据用户设置并查看阈值和可用性配置文件以及通知配置文件

日志报表

日志报表选项卡提供每个 FSx 存储虚拟机监视器日志状态的汇总报表,可下载为 CSV 文件。

本文档对您有帮助吗?

您愿意帮助我们改进文档吗?请告诉我们哪些方面可以做得更好。


很抱歉本文档未能让您满意。我们希望了解可以从哪些方面改进您的体验。


感谢您抽出时间分享反馈。我们将利用您的反馈来改进在线帮助资源。

短链接已复制!