Amazon DLM 监控
Amazon Data Lifecycle Manager (DLM) 有助于自动化创建、保留和删除 Amazon EBS 快照及基于 EBS 的 Amazon Machine Images (AMI)。它通过定义生命周期策略,按计划处理这些任务,从而简化数据备份管理,确保备份和清理操作保持一致且高效。
概述
将 AWS DLM 与 Site24x7 集成后,您可以监控和验证自动化备份及 AMI 创建流程。Site24x7 追踪 DLM 策略的执行状态,帮助您确认快照是否按预期创建和删除,确保数据保留和清理规则正常运行。
将 AWS DLM 与 Site24x7 集成后,将创建两个独立的监视器:
- DLM-EBS Snapshots:Site24x7 收集快照生命周期策略的相关信息,包括创建和删除计划、最近执行情况及任何失败操作,帮助您确认快照自动化是否正常运行,以及旧快照是否按照定义的保留规则被清理。
- DLM-EBS Backed AMI:此监视器专注于 AMI 生命周期策略。它检查 AMI 的成功创建和注销活动,识别失败的执行,并确保 AMI 保留设置被正确应用。监控此项有助于维护一致且优化的 AMI 清单。
这两个监视器共同帮助验证 DLM 配置的整体健康状况,确保 EBS 卷备份和 AMI 镜像在您的 AWS 环境中按预期管理。
使用场景
如果您跨账户管理多个 EBS 卷或 AMI,可能会依赖 DLM 策略来自动化快照的创建和删除。然而,策略失败或配置错误(例如缺少权限、无效计划或资源标签错误)可能在不被立即察觉的情况下导致备份缺口。
Site24x7 的 DLM 集成通过监控生命周期策略活动和执行结果,帮助及早发现此类问题。您可以验证每个策略是否正常运行,追踪任何失败,并确保数据保护任务按预期执行。
Site24x7 Amazon DLM 集成的优势
将您的 Amazon DLM 环境与 Site24x7 集成,可获得以下优势:
- 运营保障:确保数据备份和清理自动化持续不中断地运行。
- 主动告警:当策略执行失败或偏离定义的计划时接收通知。
- 审计支持:保持对策略执行情况的可见性,用于合规性和保留验证。
- 跨服务关联:将 DLM 洞察与 EC2、EBS 及其他 AWS 服务结合,实现完整的基础设施监控。
设置与配置
- 登录您的 Site24x7 账户。
- 前往云服务 > AWS > 集成 AWS 账户,并创建跨账户 IAM 角色,以允许 Site24x7 访问您的 AWS 资源。
- 在集成 AWS 账户页面,根据需要从待发现服务列表中选择 DLM。
权限
请确保 Site24x7 具备以下权限以监控 Amazon DLM:
- "dlm:GetLifecyclePolicies"
- "dlm:GetLifecyclePolicy"
轮询频率
Site24x7 根据设定的轮询频率(从每分钟一次到每天一次)查询 AWS 服务级别 API,以从 DLM 监视器收集指标。
支持的指标
以下列出 DLM 监视器支持的指标。
DLM-EBS Snapshots
以下列出 DLM-EBS Snapshots 监视器支持的指标。
| 指标名称 | 描述 | 统计方式 | 单位 |
|---|---|---|---|
|
Resources Targeted |
快照或基于 EBS 的 AMI 策略中指定标签所针对的资源数量。 |
Sum |
Count |
|
Snapshots Create Started |
由快照策略发起的快照创建操作数量。 |
Sum |
Count |
|
Snapshots Create Completed |
由快照策略创建的快照数量。包括计划时间 60 分钟内的成功重试。 |
Sum |
Count |
|
Snapshots Create Failed |
快照策略未能创建的快照数量。包括计划时间 60 分钟内的失败重试。 |
Sum |
Count |
|
Snapshots Shared Completed |
由快照策略跨账户共享的快照数量。 |
Sum |
Count |
|
Snapshots Delete Completed |
由快照或基于 EBS 的 AMI 策略删除的快照数量。此指标仅适用于由该策略创建的快照。 |
Sum |
Count |
|
Snapshots Delete Failed |
快照或基于 EBS 的 AMI 策略未能删除的快照数量。此指标仅适用于由该策略创建的快照。 |
Sum |
Count |
|
Snapshots Copied Region Started |
由快照策略发起的跨区域快照复制操作数量。 |
Sum |
Count |
|
Snapshots Copied Region Completed |
由快照策略创建的跨区域快照副本数量。包括计划时间 24 小时内的成功重试。 |
Sum |
Count |
|
Snapshots Copied Region Failed |
快照策略未能创建的跨区域快照副本数量。包括计划时间 24 小时内的失败重试。 |
Sum |
Count |
|
Snapshots Copied Region Delete Completed |
由快照策略按保留规则删除的跨区域快照副本数量。 |
Count |
|
|
Snapshots Copied Region Delete Failed |
快照策略按保留规则未能删除的跨区域快照副本数量。 |
Sum |
Count |
|
Snapshots Archive Deletion Failed |
快照策略未能从存档层删除的已存档快照数量。 |
Sum |
Count |
|
Snapshots Archive Scheduled |
由快照策略计划存档的快照数量。 |
Sum |
Count |
|
Snapshots Archive Completed |
由快照策略成功存档的快照数量。 |
Sum |
Count |
|
Snapshots Archive Failed |
快照策略未能存档的快照数量。 |
Sum |
Count |
|
Snapshots Archive Deletion Completed |
由快照策略从存档层成功删除的已存档快照数量。 |
Sum |
Count |
|
Pre-Script Started |
成功启动预脚本的实例数量。如果启用了脚本重试,此指标可能在每次策略运行中多次触发。 |
Sum |
Count |
|
Pre-Script Completed |
成功完成预脚本的实例数量。即使预脚本在指定超时时间之外完成,此指标也会触发。如果启用了脚本重试,此指标可能在每次策略运行中多次触发。 |
Sum |
Count |
|
Pre-Script Failed |
预脚本未能成功完成的实例数量。即使预脚本在指定超时时间之外完成,此指标也会触发。如果启用了脚本重试,此指标可能在每次策略运行中多次触发。 |
Sum |
Count |
|
Post-Script Started |
成功启动后脚本的实例数量。如果启用了脚本重试,此指标可能在每次策略运行中多次触发。 |
Sum |
Count |
|
Post-Script Completed |
成功完成后脚本的实例数量。即使后脚本在指定超时时间之外完成,此指标也会触发。如果启用了脚本重试,此指标可能在每次策略运行中多次触发。 |
Sum |
Count |
|
Post-Script Failed |
后脚本未能成功完成的实例数量。即使后脚本在指定超时时间之外完成,此指标也会触发。如果启用了脚本重试,此指标可能在每次策略运行中多次触发。 |
Sum |
Count |
|
VSS Backup Started |
成功启动卷影复制服务 (VSS) 备份的实例数量。如果启用了脚本重试,此指标可能在每次策略运行中多次触发。 |
Sum |
Count |
|
VSS Backup Completed |
成功完成 VSS 备份的实例数量。即使 VSS 备份在超时时间之外完成,此指标也会触发。如果启用了脚本重试,此指标可能在每次策略运行中多次触发。 |
Sum |
Count |
|
VSS Backup Failed |
VSS 备份未能成功完成的实例数量。即使 VSS 备份在超时时间之外完成,此指标也会触发。如果启用了脚本重试,此指标可能在每次策略运行中多次触发。 |
Sum |
Count |
|
Snapshots Copied Account Started |
由跨账户复制事件策略发起的跨账户快照复制操作数量。 |
Sum |
Count |
|
Snapshots Copied Account Completed |
由跨账户复制事件策略从另一账户复制的快照数量。包括计划时间 24 小时内的成功重试。 |
Sum |
Count |
|
Snapshots Copied Account Failed |
跨账户复制事件策略未能从另一账户复制的快照数量。包括计划时间 24 小时内的失败重试。 |
Sum |
Count |
|
Snapshots Copied Account Delete Completed |
由跨账户复制事件策略按保留规则删除的跨区域快照副本数量。 |
Sum |
Count |
|
Snapshots Copied Account Delete Failed |
跨账户复制事件策略按保留规则未能删除的跨区域快照副本数量。 |
Sum |
Count |
DLM-EBS Backed AMI
以下列出 DLM-EBS Backed AMI 监视器支持的指标。
| 指标名称 | 描述 | 统计方式 | 单位 |
|---|---|---|---|
|
Resources Targeted |
快照或基于 EBS 的 AMI 策略中指定标签所针对的资源数量。 |
Sum |
Count |
|
Snapshots Delete Completed |
由快照或基于 EBS 的 AMI 策略删除的快照数量。此指标仅适用于由该策略创建的快照。 |
Sum |
Count |
|
Snapshots Delete Failed |
快照或基于 EBS 的 AMI 策略未能删除的快照数量。此指标仅适用于由该策略创建的快照。 |
Sum |
Count |
|
Snapshots Copied Region Delete Completed |
由快照策略按保留规则删除的跨区域快照副本数量。 |
Sum |
Count |
|
Snapshots Copied Region Delete Failed |
快照策略按保留规则未能删除的跨区域快照副本数量。 |
Sum |
Count |
|
Images Create Started |
由基于 EBS 的 AMI 策略发起的镜像创建操作数量。 |
Sum |
Count |
|
Images Create Completed |
由基于 EBS 的 AMI 策略创建的 AMI 数量。 |
Sum |
Count |
|
Images Create Failed |
基于 EBS 的 AMI 策略未能创建的 AMI 数量。 |
Sum |
Count |
|
Images Deregister Completed |
由基于 EBS 的 AMI 策略注销的 AMI 数量。 |
Sum |
Count |
|
Images Deregister Failed |
基于 EBS 的 AMI 策略未能注销的 AMI 数量。 |
Sum |
Count |
|
Images Copied Region Started |
由基于 EBS 的 AMI 策略发起的跨区域复制操作数量。 |
Sum |
Count |
|
Images Copied Region Completed |
由基于 EBS 的 AMI 策略创建的跨区域 AMI 副本数量。 |
Sum |
Count |
|
Images Copied Region Failed |
基于 EBS 的 AMI 策略未能创建的跨区域 AMI 副本数量。 |
Sum |
Count |
|
Images Copied Region Deregister Completed |
由基于 EBS 的 AMI 策略按保留规则注销的跨区域 AMI 副本数量。 |
Sum |
Count |
|
Images Copied Region Deregistered Failed |
基于 EBS 的 AMI 策略按保留规则未能注销的跨区域 AMI 副本数量。 |
Sum |
Count |
|
Enable Image Deprecation Completed |
由基于 EBS 的 AMI 策略标记为已弃用的 AMI 数量。 |
Sum |
Count |
|
Enable Image Deprecation Failed |
基于 EBS 的 AMI 策略未能标记为已弃用的 AMI 数量。 |
Sum |
Count |
|
Enable Copied Image Deprecation Completed |
由基于 EBS 的 AMI 策略标记为已弃用的跨区域 AMI 副本数量。 |
Sum |
Count |
|
Enable Copied Image Deprecation Failed |
基于 EBS 的 AMI 策略未能标记为已弃用的跨区域 AMI 副本数量。 |
Sum |
Count |
阈值配置
为 DLM 监视器配置阈值:
- 登录您的 Site24x7 账户,前往管理 > 配置文件 > 阈值与可用性。
- 点击添加阈值配置文件。
- 从监视器类型下拉菜单中选择适用的监视器类型。可用的监视器类型包括 DLM-EBS Snapshots 和 DLM-EBS Backed AMI。
- 在显示名称字段中填写合适的名称。
- 支持的指标将显示在阈值配置部分。您可以为上述所有指标设置阈值。
- 点击保存。
授权许可
- 每个 DLM-EBS Snapshots 监视器消耗一个基础监视器许可证。
- 每个 DLM-EBS Backed AMI 监视器消耗一个基础监视器许可证。
查看 Amazon DLM 数据
查看 DLM-EBS Snapshots 监视器:
- 在 Site24x7 控制台中,前往云服务 > AWS > DLM-EBS Snapshots。
查看 DLM-EBS Backed AMI 监视器:
- 在 Site24x7 控制台中,前往云服务 > AWS > DLM-EBS Backed AMI。
监视器数据
以下列出每个 Amazon DLM 监视器的监视器数据。
DLM-EBS Snapshots
以下列出 DLM-EBS Snapshots 监视器的监视器数据。
摘要
摘要选项卡以图表形式提供事件时间轴和指标的概述。
跨区域策略
跨区域策略选项卡显示您在 AWS 各区域之间的快照复制和删除活动详情。您可以追踪跨区域快照复制和删除操作的完成次数和失败次数等指标。图表和数据有助于确认您的跨区域备份策略是否运行成功,并突出显示任何需要关注的故障。
配置详情
配置选项卡显示受监控 DLM-EBS Snapshots 监视器的所有关键配置详情。您可以查看策略 ID、DLM - EBS 快照策略名称、资源类型和策略类型等详情。
计划
计划选项卡显示 DLM 策略的计划配置详情,包括快照创建时间、保留期以及创建或删除频率等信息。
Zia 预测
预测图表基于历史时间序列数据显示性能指标(资源使用量的度量值)的未来趋势点。系统使用 30 天的历史数据来预测未来 7 天的指标使用情况。
中断
中断选项卡提供中断的开始时间、结束时间、持续时间和备注(如有)的详细信息。
清单
从清单选项卡获取资源名称、监视器授权类别和检查频率等详细信息。可在此选项卡上根据用户设置和查看阈值与可用性配置文件和通知配置文件。
日志报表
此选项卡提供 DLM-EBS Snapshots 监视器的日志状态综合报表,可下载为 CSV 文件。
告警日志
此选项卡按时间顺序显示与 DLM-EBS Snapshots 监视器相关的所有已触发告警列表,帮助您追踪告警历史和严重程度,以评估问题并验证阈值设置。
DLM-EBS Backed AMI
以下列出 DLM-EBS Backed AMI 监视器的监视器数据。
摘要
摘要选项卡以图表形式提供事件时间轴和指标的概述。
跨区域策略
跨区域策略选项卡显示您的 AMI 生命周期策略跨区域操作的相关数据。您可以查看显示各区域 AMI 副本发起、完成或失败时间的指标,还可以追踪已复制 AMI 的注销状态和关联快照的删除状态,帮助确认您的跨区域镜像复制和清理任务是否按预期运行。
配置详情
配置选项卡显示受监控 DLM-EBS Snapshots 监视器的所有关键配置详情。您可以查看策略 ID、DLM - EBS 快照策略名称、资源类型和策略类型等详情。
计划
计划选项卡列出您的 DLM 策略中定义的计划配置详情,显示 AMI 的创建、复制和删除时间,以及保留期和频率。这有助于验证您的 AMI 创建和轮换计划是否符合组织的备份和合规要求。
Zia 预测
预测图表基于历史时间序列数据显示性能指标(资源使用量的度量值)的未来趋势点。系统使用 30 天的历史数据来预测未来 7 天的指标使用情况。
中断
中断选项卡提供中断的开始时间、结束时间、持续时间和备注(如有)的详细信息。
清单
从清单选项卡获取缓存名称、区域和监视器授权类别等详细信息。可在此选项卡上根据用户设置和查看阈值与可用性配置文件和通知配置文件。
日志报表
此选项卡提供 DLM-EBS Backed AMI 监视器的日志状态综合报表,可下载为 CSV 文件。
告警日志
此选项卡按时间顺序显示与 DLM-EBS Backed AMI 监视器相关的所有已触发告警列表,帮助您追踪告警历史和严重程度,以评估问题并验证阈值设置。
