帮助手册

AWS 数据库迁移服务监控集成

AWS 数据库迁移服务(DMS)是一项用于将数据从一个数据库迁移到另一个数据库的服务。它支持同构迁移(如 Oracle 到 Oracle)以及异构迁移(如 Oracle 或 Microsoft SQL Server 到 Amazon Aurora)。

通过 Site24x7 与 AWS DMS 的集成,您可以监控源端和目标端的数据库终端节点,确保数据迁移顺畅无误。我们通过密切关注 AWS DMS 复制任务和复制实例,帮助您应对迁移过程中的数据库工作负载挑战。

配置步骤

1. 如果您尚未在 AWS 账户和 Site24x7 的 AWS 账户中启用对 AWS 资源的访问权限,请通过以下任一方式完成:

  • 将 Site24x7 创建为 IAM 用户。
  • 创建跨账户 IAM 角色。 了解更多

2. 在"集成 AWS 账户"页面中,勾选 DMS 复制任务DMS 复制实例对应的复选框 了解更多

策略与权限

Site24x7 使用多种 AWS DMS API 来采集迁移服务的相关信息。请为 Site24x7 实体(IAM 用户或 IAM 角色)分配 AWS 托管策略 ReadOnlyAccess,以便 Site24x7 采集指标和元数据。如需使用自定义策略,请确保策略 JSON 中包含以下读取级别操作。 了解更多

  • "dms:DescribeAccountAttributes",
  • "dms:DescribeReplicationInstances",
  • "dms:DescribeReplicationTasks",
  • "dms:DescribeTableStatistics",
  • "dms:DescribeCertificates",
  • "dms:DescribeConnections",
  • "dms:DescribeEndpoints",
  • "dms:ListTagsForResource",
  • "dms:DescribeEvents",
  • "logs:DescribeLogStreams",
  • "logs:GetLogEvents"

轮询频率

Site24x7 根据配置的轮询频率查询 AWS,以采集 AWS DMS 性能指标。轮询间隔默认为一小时。 了解更多

授权

每个 DMS 监视器视为一个基础监视器

IT 自动化

您可以为 Site24x7 支持的 AWS 服务添加自动化。登录 Site24x7,依次导航至管理 > IT 自动化模板(+)> 添加自动化模板。添加自动化后,您可以安排它们依次执行。

您现在可以使用 AWS 数据迁移服务自动化,自动启动、停止、恢复和重新加载 AWS DMS 复制任务。

AWS DMS 复制任务性能指标

属性 描述 统计方式 数据类型
Full Load Throughput Bandwidth Source 从源端全量加载接收的传入数据量,以千字节/秒为单位。 Average KB/sec
Full Load Throughput Bandwidth Target 全量加载传输到目标端的传出数据量,以千字节/秒为单位。 Average KB/sec
Full Load Throughput Rows Source 从源端全量加载接收的传入变更量,以行/秒为单位。 Average Count/sec
Full Load Throughput Rows Target 全量加载传输到目标端的传出变更量,以行/秒为单位。 Average Count/sec
CDC Incoming Changes 某一时间点等待应用到目标端的变更事件总数。请注意,这与源端终端节点的事务变更速率不同。此指标数值过高通常表示 AWS DMS 无法及时应用捕获的变更,从而导致目标端延迟过高。 Sum Count
CDC Changes Memory Source 积累在内存中、等待从源端提交的行数。可结合 CDCChangesDiskSource 一起查看此指标。 Sum Count
CDC Changes Memory Target 积累在内存中、等待提交到目标端的行数。可结合 CDCChangesDiskTarget 一起查看此指标。 Sum Count
CDC Changes Disk Source 积累在磁盘中、等待从源端提交的行数。可结合 CDCChangesMemorySource 一起查看此指标。 Sum Count
CDC Changes Disk Target 积累在磁盘中、等待提交到目标端的行数。可结合 CDCChangesMemoryTarget 一起查看此指标。 Sum Count
CDC Throughput Bandwidth Source 源端接收的传入数据量,以千字节/秒为单位。CDCThroughputBandwidth 在采样点记录接收到的传入数据。如果未发现任务网络流量,则值为零。由于 CDC 不发起长时间运行的事务,网络流量可能不会被记录。 Average KB/sec
CDC Throughput Bandwidth Target 传输到目标端的传出数据量,以千字节/秒为单位。CDCThroughputBandwidth 在采样点记录传输的传出数据。如果未发现任务网络流量,则值为零。由于 CDC 不发起长时间运行的事务,网络流量可能不会被记录。 Average KB/sec
CDC Throughput Rows Source 来自源端的传入任务变更量,以行/秒为单位。 Average Count/sec
CDC Throughput Rows Target 传输到目标端的传出任务变更量,以行/秒为单位。 Average Count/sec
CDC Latency Source 从源端终端节点捕获的最后一个事件与 AWS DMS 实例当前系统时间戳之间的时间差(秒)。CDCLatencySource 表示源端与复制实例之间的延迟。CDCLatencySource 较高意味着从源端捕获变更的过程出现了延迟。要识别持续复制中的延迟,可将此指标与 CDCLatencyTarget 一起查看。如果 CDCLatencySource 和 CDCLatencyTarget 都较高,请优先排查 CDCLatencySource。 Average Seconds
CDC Latency Target CDC Latency Target 表示复制实例与目标端之间的延迟。当 CDC Latency Target 较高时,表示将变更事件应用到目标端的过程出现了延迟。 Average Seconds
CPU Utilization 任务使用的 CPU 百分比。 Average Percent
CPU Allocated 为任务最大分配的 CPU 百分比(0 表示无限制)。 Average Percent
Memory Allocated 为任务最大分配的内存量(0 表示无限制)。 Average MB
Swap Usage 任务使用的交换空间量。 Average Bytes
Validation Succeeded Record Count AWS DMS 每分钟验证通过的行数。 Sum Count
Validation Attempted Record Count 每分钟尝试验证的行数。 Sum Count
Validation Failed Overall Count 验证失败的行总数。 Sum Count
Validation Suspended Overall Count 验证被暂停的行总数。 Sum Count
Validation Pending Overall Count 仍待验证的行总数。 Sum Count
Validation Bulk Query Source Latency AWS DMS 可以批量进行数据验证,尤其是在全量加载或持续复制期间存在大量变更的特定场景中。此指标表示从源端终端节点读取一批数据所需的延迟。 Average Milliseconds
Validation Bulk Query Target Latency AWS DMS 可以批量进行数据验证,尤其是在全量加载或持续复制期间存在大量变更的特定场景中。此指标表示从目标端终端节点读取一批数据所需的延迟。 Average Milliseconds
Validation Item Query Source Latency 在持续复制期间,数据验证可以识别正在进行的变更并逐条验证。此指标表示从源端读取这些变更的延迟。如果验证过程中出现错误,验证可能会根据变更数量运行比所需更多的查询。 Average Milliseconds
Validation Item Query Target Latency 在持续复制期间,数据验证可以识别正在进行的变更并逐行验证。此指标表示从目标端读取这些变更的延迟。如果验证过程中出现错误,验证可能会根据变更数量运行比所需更多的查询。 Average Milliseconds
Full Load Throughput Bandwidth Total 目标端和源端的全量加载吞吐量带宽总量。 Average KB/sec
Full Load Throughput Rows Total 目标端和源端的全量加载吞吐量行数总量。 Average Count/sec
CDC Changes Memory Total 目标端和源端内存中的 CDC 变更总数。 Sum Count
CDC Changes Disk Total 目标端和源端磁盘中的 CDC 变更总数。 Sum Count
CDC Throughput Bandwidth Total 目标端和源端的 CDC 吞吐量带宽总量。 Average Count/sec
CDC Throughput Rows Total 目标端和源端的 CDC 吞吐量带宽总量。 Average Count/sec
CDC Latency Total 目标端和源端的 CDC 延迟总量。 Average Seconds
Validation Bulk Query Total Latency 目标端和源端验证批量查询的总延迟。 Average Milliseconds
Validation Item Query Total Latency 目标端和源端验证逐条查询的总延迟。 Average Milliseconds

AWS DMS 复制实例性能指标

属性 描述 统计方式 数据类型
CPU Utilization 已使用的 CPU 量。 Average Percent
Free Storage Space 可用存储空间量。 Average Bytes
Freeable Memory 可用的随机访问内存量。 Average Bytes
Write IOPS 每秒磁盘写入 I/O 操作的平均数量。 Average Count/sec
Read IOPS 每秒磁盘读取 I/O 操作的平均数量。 Average Count/sec
Read Throughput 每秒从磁盘读取的平均字节数。 Average Bytes/sec
Read Latency 每次磁盘 I/O(输入)操作的平均耗时。 Average Milliseconds
Swap Usage 复制实例上已使用的交换空间量。 Average Bytes
Network Receive Throughput 复制实例上的传入(接收)网络流量,包括客户数据库流量和用于监控与复制的 AWS DMS 流量。 Average Bytes/sec

预测

估算以下数据库迁移服务实例性能指标的未来值,从而做出明智的决策,如是否需要增加容量或扩展 AWS 基础设施。

  • CPU Utilization
  • Read IOPS
  • Write IOPS
  • Freeable Memory
  • Swap Usage
  • Disk Queue Depth

同样,您还可以查看以下数据库迁移服务任务指标的预测:

  • CPU Utilization
  • Memory Usage 

Site24x7 的 AWS DMS 监控界面

概览

通过时间序列图表,全面了解每个复制任务或复制实例中发生的各类事件。此部分提供的运行详情包括:CPU 使用率、内存使用量、全量加载带宽、全量加载吞吐量行数、变更数据捕获(CDC)传入变更、磁盘和内存中的 CDC 变更、CDC 延迟等众多指标。

复制实例还有一个单独的任务概览选项卡,显示各任务的详情和实时统计数据。对于每个任务详情,您还可以批量编辑阈值配置文件。

已监控资源

已监控资源选项卡提供各资源的可用性状态,包含资源名称、类型、显示名称、状态和操作等信息。操作列支持在被监控资源标记为宕机、严重或异常时设置告警和添加自动化操作。

终端节点详情

DMS 复制任务部分提供每个任务的终端节点详情,包括连接、源端终端节点和目标端终端节点等各类信息。连接部分支持为每个终端节点在宕机时配置阈值、设置告警和添加自动化操作。

中断

中断选项卡显示您的资源各种历史状态(如宕机、异常、严重或维护),并提供中断开始时间、结束时间、持续时长和备注(如有)等详情。您还可以编辑或删除备注。

日志报表

在此处,您可以查看复制实例或复制任务的审计日志数据,以及时间戳、状态、CPU 使用率、可用存储空间和可用内存等详情。

本文档对您有帮助吗?

您愿意帮助我们改进文档吗?请告诉我们哪些方面可以做得更好。


很抱歉本文档未能让您满意。我们希望了解可以从哪些方面改进您的体验。


感谢您抽出时间分享反馈。我们将利用您的反馈来改进在线帮助资源。

短链接已复制!