帮助手册

使用 Site24x7 进行 AWS 监控的最佳实践

使用 Site24x7 的 AWS 监控服务,可通过采集性能、可用性及 AWS 成本相关数据,对您的云基础设施实现全面可见性。为确保监控的有效性与优化效果,请遵循以下按关键功能领域分类的最佳实践。

部署方式

AWS IAM 与访问配置

  • IAM 角色设置:为 Site24x7 创建专用的 IAM 角色,并赋予必要权限(例如 ReadOnlyAccess 及特定服务的自定义策略)。
  • 允许列表 Site24x7 IP:当部署了任何 Site24x7 代理时,请确保将 Site24x7 的监控 IP 加入安全组/网络访问控制列表(NACL)的允许列表,以支持基于代理的检查。

Site24x7 AWS 集成

  • 无缝部署:使用 AWS CloudFormation 模板(如可用)快速完成部署。
  • 自动发现资源:启用自动发现功能,自动检测并监控新的 AWS 资源。
  • 便捷集成:对于混合环境,部署 Site24x7 本地轮询器以监控私有 AWS 资源(例如 VPC 中的 RDS、EC2 实例)。

指标采集优化

  • 配置指标配置文件:仅选择所需的 Amazon CloudWatch 指标,以降低成本并避免不必要的数据采集。 
  • 高效利用 CloudWatch API:根据重要程度设置适当的轮询间隔,优化 API 调用。 
  • 按相关性筛选指标:聚焦于关键绩效指标(KPI),避免告警疲劳,提高监控效率。 

阈值配置

  • 默认阈值配置文件:为常用 AWS 服务设置预定义的阈值配置文件,确保告警一致性。 
  • 动态基线:使用异常检测功能,根据历史性能趋势自动调整阈值。 
  • 告警抑制配置非工作时间或维护窗口,以抑制无需处理的告警。 

仪表板

  • 自定义仪表板:为不同团队(例如 DevOps、安全、财务)创建定制化的仪表板,突出显示相关指标。 
  • 实时可见性:使用小部件展示 AWS 关键服务健康状态、成本趋势和性能指标。
  • 跨服务关联:综合来自 EC2、RDS、S3 及其他服务的指标,提供统一视图。

正常运行时间监控

  • 启用正常运行时间检查:主动监控 AWS 服务(例如 EC2、S3、RDS)的可用性,及时发现中断。 
  • 全球监控位置:从多个地理位置配置检查,以评估区域性能。 
  • 多步骤 Web 事务监控:跟踪托管在 AWS 上的关键用户旅程(例如登录、结账)。 

报表与分析

  • AWS 指导报表:启用最佳实践检查,以提升 AWS 账户的性能。
  • 定期报表:为利益相关方生成每周或每月的性能报表

告警与通知

  • 多渠道告警配置电子邮件、SMS、Slack、Microsoft Teams、PagerDuty 或 ServiceNow。
  • 升级策略:设置分级告警(例如,先通知 L1 团队,若未解决则升级至 L2)。
  • 维护窗口:在计划的宕机时间内抑制告警。

监控标签

  • 自动化监视器组:使用原生 AWS 标签自动对监视器进行分组和管理(例如,environment: production)。 
  • 资源分类:应用标签,按部门、项目或重要程度对资源进行分类,便于组织管理。 
  • 成本分配标签:通过按业务单元或应用程序标记资源,有效监控云成本。 

安全与合规

  • IAM 最小权限:将 Site24x7 的 IAM 角色限制为仅具备必要权限
  • 加密:确保存储指标的 CloudWatch Logs 和 S3 存储桶已加密。
  • 审计日志:监控 AWS CloudTrail 中的未授权访问行为。

遵循这些最佳实践,各组织可以最大程度地提升使用 Site24x7 进行 AWS 监控的效率,降低成本,增强安全性,并确保云服务的高可用性。

本文档对您有帮助吗?

您愿意帮助我们改进文档吗?请告诉我们哪些方面可以做得更好。


很抱歉本文档未能让您满意。我们希望了解可以从哪些方面改进您的体验。


感谢您抽出时间分享反馈。我们将利用您的反馈来改进在线帮助资源。

短链接已复制!