AWS 指导报表
Site24x7 指导报表中的成本和安全建议将仅在 ManageEngine CloudSpend 中以建议报表的形式提供。如果您同时使用 Site24x7 和 CloudSpend,可继续从 CloudSpend > 报表 > 建议报表获取这些建议。
CloudSpend 中的建议报表可帮助您优化云成本,提升 AWS、Azure 和 GCP 账户云基础设施的容错能力与性能。它提供针对性的建议,助您实现显著节省并提升整体云环境效率。
如果您尚未订阅 CloudSpend 并希望继续获取这些建议,可立即开始使用 CloudSpend。
Site24x7 的 AWS 指导报表会检查 EC2、RDS、IAM、S3、SES 等 AWS 服务的配置和资源利用率,并提供改进 AWS 账户性能的建议。以下是针对各 AWS 服务分组的可用性最佳实践检查。
资源级别最佳实践检查
您现在可在指导报表选项卡中查看每个 AWS 资源的最佳实践建议。提供内置仪表板的 AWS 服务列表,请参见此处。
AWS 最佳实践检查
可用性建议检查按 AWS 服务命名空间分组。
Amazon Elastic Compute Cloud (EC2)
1. EC2 实例使用率过低(优先级:中等)
基准:
检查 Amazon Elastic Compute Cloud (EC2) 实例的资源利用率,如果过去 48 小时内 CPU 使用率低于 2%,则将其标记为使用率过低。
建议:
对于 Amazon EC2,您需根据实例类型和使用小时数付费。通过识别和停止低利用率实例,可降低成本。此外,我们还会显示当前实例类型,并推荐可降级的目标实例类型(建议实例类型),以实现更好的成本节约。
所需权限:
"ec2:DescribeInstances"、"cloudwatch:GetMetricData"、"cloudwatch:GetMetricStatistics" 和 "cloudwatch:ListMetrics"
2. EC2 安全组 – 特定端口的无限制访问(优先级:高)
基准:
检查已监控 EC2 实例的安全组,查找允许以下端口无限制访问的规则:20、21、22、1433、1434、3306、3389、4333、5432 或 5500。
描述:
无限制访问可能导致 DDoS 攻击或恶意流量进入您的应用程序。
建议:
仅向互联网开放 TCP 80 和 443 端口,将攻击者的可乘之机降至最低。
所需权限:
"ec2:DescribeInstances" 和 "ec2:DescribeSecurityGroups"
3. Amazon EC2-VPC 实例 - 安全组规则过多 (优先级:中等)
基准:
检查具有超过 50 条规则(入站和出站)的安全组的 Amazon EC2-VPC 实例。
描述:
在 VPC 中启动实例时,最多可指定五个与实例关联的安全组。对于每个安全组,您可以添加控制入站和出站流量的规则。如果安全组规则数量过多,可能会影响实例性能。
建议:
减少关联 VPC 安全组中配置的规则数量。
所需权限:
"ec2:DescribeInstances" 和 "ec2:DescribeSecurityGroups"
4. EC2 实例未加入 AutoScaling 组(优先级:信息)
基准:
检查未关联任何 AutoScaling 组的 Elastic Compute Cloud (EC2) 实例。
描述:
AutoScaling 可帮助您根据需求扩展和缩减计算资源。通过创建称为 AutoScaling 组的 EC2 实例组,您可以指定所需容量或分配策略,以确保提供适量的 EC2 实例来处理传入的应用程序请求。
建议:
将您的 EC2 实例组织为 AutoScaling 组。
所需权限:
"ec2:DescribeInstances" "autoscaling:DescribeAutoScalingGroups"
5. EC2 实例未在 VPC 内启动(优先级:中等)
基准:
检查在 EC2 Classic 平台中启动的 Elastic Compute Cloud (EC2) 实例。
描述:
Amazon EC2 网络分为两个平台:EC2 Classic 和 EC2 VPC。在 Classic 平台中启动实例时,实例将在与其他 AWS 租户共享的网络中运行;而在 VPC 中启动实例时,您的资源将与其他网络逻辑隔离。
建议:
将您的实例迁移至 VPC。
所需权限:
"ec2:DescribeInstances"
6. EC2 实例计划维护(优先级:中等)
基准:
检查 Elastic Compute Cloud (EC2) 实例是否有计划维护事件。
描述:
AWS 会不时为您的实例安排系统维护事件,以对底层物理主机执行例行维护任务。
建议:
将受监控的 EC2 实例关联到 Site24x7 的智能维护窗口,以在宕机时间内抑制告警并继续监控。
所需权限:
"ec2:DescribeInstances" 和 "ec2:DescribeInstanceStatus"
7. Amazon EC2 - 半虚拟化类型实例(优先级:中等)
基准:
检查是否存在半虚拟化类型的 Amazon EC2 实例。
描述:
Linux Amazon Machine Images (AMIs) 使用两种虚拟化类型之一:半虚拟化 (PV) 或硬件虚拟机 (HVM)。PV 和 HVM AMI 的主要区别在于引导方式,以及是否能够利用特殊硬件扩展(CPU、网络和存储)以获得更好的性能。基于 HVM 类型虚拟化启动的实例比基于 PV 的实例提供更好的性能。
建议:
考虑将实例类型更改为基于 HVM 虚拟化类型。
所需权限:
- "ec2:DescribeInstances"
AWS Elastic Load Balancing
1. 空闲弹性负载均衡器(优先级:高)
基准:
检查受监控经典负载均衡器的使用统计数据,如果过去 48 小时内接收/路由的请求数或与目标实例建立的 TCP 连接数少于 100,则将其视为空闲。
描述:
Amazon Web Services 按负载均衡器运行的每个完整或不完整小时收费。如果您的负载均衡器路由的请求少于 100 个,则说明其利用率不足。
建议:
考虑终止负载均衡器并在不使用负载均衡器的情况下运行您的应用程序。
所需权限
"elasticloadbalancing:DescribeLoadBalancers"、cloudwatch:GetMetricData"、"cloudwatch:GetMetricStatistics" 和 "cloudwatch:ListMetrics"
2. ELB 未使用多个可用区(优先级:高)
基准:
检查在单一可用区中运行的负载均衡器。
描述:
如果您在单一可用区中启动 EC2 实例,则该数据中心发生的任何故障都可能导致所有实例不可用。通过将多个 EC2 实例部署到同一区域的不同可用区,可以消除单点故障。
建议:
为提高弹性和容错能力,请确保注册到负载均衡器的 EC2 实例附加到不同的可用区。
所需权限:
"elasticloadbalancing:DescribeLoadBalancers"
3. 弹性负载均衡器 - 访问日志(优先级:中等)
基准:
检查负载均衡器配置,查看是否为 ELB 启用了访问日志。
描述:
访问日志会捕获并存储负载均衡器收到的每个请求的详细信息。IP 地址、延迟、请求路径、后端服务器响应等信息将存储在您指定的 Amazon S3 存储桶中。AWS 账户持有者可以使用这些信息分析流量模式并排查高级 ELB 问题。
建议:
这是一项默认禁用的可选功能。请为您的弹性负载均衡器启用访问日志。
所需权限:
"elasticloadbalancing:DescribeLoadBalancers"
4. 弹性负载均衡器 - 侦听器安全(优先级:高)
基准:
检查弹性负载均衡器(经典和应用程序类型)的配置,当没有使用安全协议(HTTPS 或 SSL)的侦听器时发出警告。
描述:
侦听器是检查连接请求的进程。当您的弹性负载均衡器没有配置 HTTPS 侦听器时,未经授权的人员可以读取客户端与负载均衡器之间通过网络传输的数据。
建议:
通过在负载均衡器上部署 SSL 证书,为 HTTP 侦听器启用 SSL/TLS 支持。
5. 与负载均衡器关联的 Auto Scaling 组的健康检查(优先级:中等)
基准:
检查与负载均衡器关联的 Auto Scaling 组 (ASG) 是否为负载均衡器配置了健康检查。
描述:
Auto Scaling 组的默认健康检查仅为 EC2 状态检查,如果实例未通过负载均衡器提供的健康检查,ASG 不会将其视为不健康。您可以通过配置 ASG 使用负载均衡器健康检查,从负载均衡器判断实例的健康状态。
建议:
向 ASG 添加负载均衡器健康检查,使实例健康状态由 EC2 状态检查和负载均衡器健康检查共同决定。
AWS Identity Access Management (IAM)
1. AWS 根账户用户 - 访问密钥(优先级:高)
基准:
检查 AWS 账户根用户是否存在活跃的访问密钥。
描述:
访问密钥用于向 AWS 服务 API 发出安全的 REST API 或 HTTP 查询请求。任何拥有 AWS 根账户用户访问密钥的人都可以使用这些密钥对所有资源(包括账单数据)进行无限制访问。
建议:
删除根用户的访问密钥或将其设置为非活跃状态。
2. 确保 IAM 密码策略至少需要一个大写字母、小写字母、符号和数字 (优先级:中等)
基准:
检查 IAM 密码策略是否要求至少包含一个大写字母、小写字母、符号和数字。
描述:
如果管理员未设置自定义密码策略,IAM 用户密码必须满足默认 AWS 密码策略,即至少包含一个大写字母、小写字母、符号和数字。
建议:
通过实施强 AWS IAM 密码并频繁更改,维护 AWS 账户的安全性。
Amazon Simple Storage Service (S3)
1. Amazon S3 - S3 存储桶应启用跨区域复制(优先级:中等)
基准:
检查 S3 存储桶是否启用了跨区域复制。
描述:
启用跨区域复制后,您可以自动在不同 AWS 区域的 S3 存储桶之间复制数据或复制对象。无论是用于灾难恢复计划还是性能优化,数据复制都将提高您的应用程序可用性和可靠性。
建议:
为所有 S3 存储桶启用跨区域复制。
Amazon Relational Database Service (RDS)
1. Amazon RDS - 操作系统更新的事件订阅(优先级:中等)
基准:
检查实例源类型的 RDS 事件订阅是否包含安全补丁事件类别。
描述:
RDS 数据库实例有时需要操作系统更新,以提升数据库性能和整体安全状态。通过使用事件订阅,您可以设置电子邮件或短信告警,在更新可用时立即收到通知。您可以使用这些告警为满足合规性义务所需的更新做好计划。
建议:
考虑订阅实例源类型的安全补丁事件类别。
所需权限:
- "rds:DescribeDBInstances"
- "rds:DescribeEventSubscriptions"
Amazon Simple Notification Service (SNS)
2. Amazon SNS - 传送状态日志(优先级:中等)
基准:
检查受监控 SNS 主题是否为发送到该 SNS 主题的通知消息启用了传送状态日志。
描述:
日志记录是维护服务可靠性、可用性和性能的重要组成部分。记录通知消息传送状态有助于提供运营洞察,例如:
- 了解消息是否已传送到 Amazon SNS 终端节点。
- 识别 Amazon SNS 终端节点发送给 Amazon SNS 的响应。
- 确定消息驻留时间(从发布时间戳到移交给 Amazon SNS 终端节点之间的时间)。
建议:
考虑为 SNS 主题启用传送状态日志。
所需权限:
"sns:GetTopicAttributes"
Amazon DynamoDB
1. Amazon DynamoDB - 时间点恢复(优先级:中等)
基准:
检查 Amazon DynamoDB 表是否启用了时间点恢复 (PITR)。
描述:
备份有助于您在安全事件后更快恢复,同时增强系统弹性。DynamoDB PITR 可自动为 DynamoDB 表创建备份,减少从意外删除或写入操作中恢复所需的时间。已启用 PITR 的 DynamoDB 表可以恢复到最近 35 天内的任意时间点。
建议:
考虑为 DynamoDB 表启用 PITR。
所需权限:
- "dynamodb:DescribeContinuousBackups"
Amazon RedShift
1. Amazon Redshift - 集群自动快照(优先级:中等)
基准:
检查 Amazon Redshift 集群是否启用了自动快照。
描述:
备份有助于您在安全事件后更快恢复,增强系统弹性。Amazon Redshift 默认会定期创建快照。
建议:
考虑将集群的快照保留期更新为至少 7 天。
所需权限:
- "redshift:DescribeClusters"
Amazon CloudFront
1. Amazon CloudFront - 源站故障转移(优先级:中等)
基准:
检查受监控的 CloudFront 分配是否配置了源站故障转移。
描述:
配置了源站故障转移的 CloudFront 分配可提供高可用性。分配可配置主源站和辅助源站,当主源站满足配置的故障转移条件时,辅助源站可用于提供内容。
建议:
通过满足以下所有条件来配置分配的故障转移:
- CloudFront 分配应至少有两个源站。
- CloudFront 分配应有一个配置了主源站和辅助源站的源站组。
- CloudFront 分配源站组应配置故障转移条件。
所需权限:
"cloudfront:GetDistributionConfig"
Amazon API Gateway
1. Amazon API Gateway - X-Ray 追踪(优先级:中等)
基准:
检查受监控的 API Gateway 资源是否启用了 X-Ray 追踪。
描述:
AWS X-Ray 可用于追踪和分析用户请求,这些请求从 Amazon API Gateway REST API 传递到底层服务。X-Ray 提供整个请求的端到端视图,帮助您分析 API 及其后端服务的延迟。X-Ray 追踪可以更快速地响应底层基础设施的性能变化。
建议:
考虑为 API Gateway 启用 X-Ray 追踪。
所需权限:
- "apigateway:RestApis"
- "apigateway:GetStages"
2. Amazon API Gateway - 加密缓存数据(优先级:中等)
基准:
检查受监控的具有 API 缓存的 API Gateway 资源是否启用了缓存加密。
描述:
对静态数据进行加密可降低磁盘上存储的数据被未经 AWS 身份验证的用户访问的风险。它增加了另一层访问控制,限制了未经授权用户访问数据的能力。例如,解密数据前需要 API 权限。API Gateway REST API 缓存应在静态时加密,以提供额外的安全层。
建议:
考虑为 API Gateway REST API 缓存启用缓存加密。
所需权限:
- "apigateway:RestApis"
- "apigateway:GetStages"
AWS EFS
1. Amazon EFS - 文件系统备份(优先级:低)
基准:
检查受监控的弹性文件系统 (EFS) 卷是否启用了自动备份。
描述:
将 EFS 文件系统纳入备份计划可防止数据删除和丢失。
建议:
考虑为 EFS 文件系统启用自动备份。
所需权限:
- "elasticfilesystem:DescribeFileSystems"
- "elasticfilesystem:DescribeBackupPolicy"
Amazon Route 53
1. Amazon Route 53 - 自动续订
基准:
检查您注册域名的自动续订功能是否已启用,以实现自动续订。
描述:
启用自动续订功能有助于在宽限期结束前续订域名,防止域名被其他注册商注册。即使在域名到期后恢复,恢复域名的费用也高于续订费用。
建议:
建议启用自动续订选项,防止域名过期。
2. Amazon Route 53 - 域名已过期
基准:
检查并识别当前已过期的注册域名。
描述:
域名过期后,它将不再显示在控制台中。如果您在续订期前未续订域名,它将会过期,一些顶级域名 (TLD) 注册机构允许您在域名被其他注册商注册前恢复该域名。恢复域名的价格始终高于续订和新注册价格,因此在恢复前请查看恢复过期域名的价格。
建议:
恢复域名将帮助您完全访问过期域名。建议在域名被其他注册商注册前尽早恢复。
Amazon MQ
1. Amazon MQ - 日志导出
基准:
检查并确认日志导出功能是否已启用,以将代理日志事件发布到 AWS CloudWatch Logs。
描述:
启用日志导出功能后,Amazon MQ 会将常规日志和审计日志发布到 AWS CloudWatch Logs,帮助您持续了解代理活动,并在审计方面满足合规性要求。
建议:
为现有 Amazon MQ 代理启用日志导出功能。
2. Amazon MQ - 部署模式
基准:
检查 AWS MQ 代理是否使用主动/备用部署模式以实现高可用性。
描述:
与默认启用的单代理模式相比,启用部署模式可为 Amazon MQ 代理实现高可用性,因为该服务提供自动故障转移功能。MQ 主动/备用部署模式包括两个代理实例,通过在一个可用区 (AZ) 中创建一个代理实例,在另一个 AZ 中创建一个备用代理实例来进行配置。
建议:
要为现有 Amazon MQ 代理启用主动/备用部署模式,您需要使用高可用性配置重新创建代理。
3. Amazon MQ - 自动次要版本升级
基准:
检查 Amazon MQ 代理是否启用了自动次要版本升级功能,以自动接收次要引擎升级。
描述:
启用自动次要版本升级功能后,版本升级将在维护窗口期间自动进行。这样,您的 AWS MQ 代理可以获得新软件功能、错误修复和安全补丁。
建议:
要为现有 Amazon MQ 代理启用自动次要版本升级功能,您需要使用必要的配置重新创建代理。
AWS Certificate Manager (ACM)
1. AWS Certificate Manager - 证书有效性
基准:
检查由 ACM 管理的 SSL/TLS 证书颁发或续订过程中提出的所有请求是否均经过验证。
描述:
当您的 ACM 证书未在规定时间内(在请求提出后 72 小时内)完成验证时,这些证书将变为无效,您将必须申请新的 SSL/TLS 证书,这可能会导致您的应用程序或服务中断。
建议:
确定您的 AWS 账户中是否有任何 ACM 证书请求当前未完成验证。
2. AWS Certificate Manager - 证书续订
基准:
在有效期结束前,检查由 ACM 管理的 SSL/TLS 证书是否需要续订。
描述:
当 ACM 证书在到期日前未续订时,它们将变为无效,且实施这些证书的 AWS 资源(CloudFront 分配)将不再安全。ACM 服务不会自动续订未在使用中的证书(即不再与其他 AWS 资源关联的证书)。续订过程必须在这些证书失效前手动完成。
建议:
使用 ACM 服务续订即将到期的 SSL/TLS 证书。
3. AWS Certificate Manager - 证书已过期
基准:
检查由 ACM 管理的所有已过期 SSL/TLS 证书是否已删除。
描述:
删除过期的 ACM 证书可消除无效 SSL/TLS 证书被意外部署到其他资源(如弹性负载均衡 (ELB))的风险。
建议:
删除由 ACM 管理的所有过期 SSL/TLS 证书。
Amazon WorkSpaces
1. Amazon WorkSpaces - 健康实例
基准:
检查所有 WorkSpaces 实例是否健康并正常运行,以维持工作状态。
描述:
未响应服务健康检查的 WorkSpaces 实例被视为不健康。WorkSpaces 服务会定期向 WorkSpaces 实例发送状态请求,当未收到对健康检查请求的响应时,该实例将被判定为不健康。
建议:
WorkSpaces 不健康指标通常可通过重启来清除。
Amazon Neptune
1. Amazon Neptune - 自动次要版本升级
基准:
检查 Neptune 数据库实例是否启用了自动次要版本升级功能,以自动接收次要引擎升级。
描述:
Neptune 数据库会定期升级,引入新的软件功能、错误修复、安全补丁和性能改进。自动升级将在系统维护窗口期间应用于 Neptune 实例。
建议:
启用自动次要版本升级功能以更新 Neptune 数据库实例。
2. Amazon Neptune - 多可用区
基准:
确保您的 Neptune 图数据库集群部署在至少两个可用区。
描述:
如果您的 Neptune 图数据库集群分布在多个可用区并共享一个 Neptune 图数据库集群,在某个可用区发生故障时,Neptune 图数据库集群将变得不可用,其他可用区中的资源将失去互联网访问。通过将 Neptune 图数据库集群部署在至少两个可用区,可建立容错能力。
建议:
通过将 Neptune 图数据库集群部署在至少两个可用区,消除单点故障并提高应用程序可用性。
3. Amazon Neptune - 备份保留期
基准:
检查 Amazon Neptune 图数据库集群是否设置了最短备份保留期以保留自动快照。
描述:
为 Amazon Neptune 集群设置的最短保留期将实现持续的增量备份,使您能够快速恢复到备份保留期内的任意时间点。更长时间的备份使您能够在发生故障时处理数据恢复过程。
建议:
更新 Neptune 集群配置以设置足够的备份保留期。
Amazon OpenSearch Service
1. OpenSearch 域应启用静态加密(优先级:高)
资源级别描述:
OpenSearch 域必须对静态数据进行加密,以保护资源免受安全攻击。
基准:
确定 OpenSearch 域是否启用了静态加密。
描述:
静态数据加密有助于防止未经授权的访问,避免对 ES 域(集群)及其存储系统中的敏感数据执行恶意活动。ES 静态加密利用 AWS KMS 服务存储和管理加密密钥。
建议:
确保对 ES 域进行静态加密,以保护其免受恶意访问,并满足组织的合规性要求。
Amazon GuardDuty
1. 应启用 GuardDuty(优先级:中等)
基准:
检查 Amazon GuardDuty 是否已启用。
描述:
AWS GuardDuty 是一项托管威胁检测服务,可持续监控您的 VPC 流日志、AWS CloudTrail 事件日志和 DNS 日志,以检测恶意或未经授权的行为。启用 GuardDuty 后,它可以帮助识别未经授权或异常活动并生成调查结果,同时提供修复建议。
建议:
在 AWS 资源所在的每个区域启用 GuardDuty,以强化基础设施的安全防护。
Amazon CloudTrail
1. 确保启用 CloudTrail 全局服务 (优先级:高)
基准:
确保启用 CloudTrail 全局服务。
描述:
通过启用 CloudTrail 全局服务,提升对 AWS 账户中 API 活动的可见性。这可加强安全性,并通过捕获非特定区域的活动(如 IAM 事件)简化 AWS 账户管理。您还可以从一个位置管理所有区域的 Trail 配置,并在未使用的区域记录 API 调用,以检测任何异常活动。
建议:
启用 CloudTrail 全局服务,以更好地管理 AWS 账户并强化云基础设施的安全性。
2. 确保同时存在日志指标筛选器和告警 (优先级:中等)
基准:
确定是否存在用于检测 CloudTrail 配置更改的 CloudWatch 指标筛选器和告警。
描述:
指标筛选器用于从 CloudTrail 传输到 CloudWatch 的日志数据中创建数值。您可以根据传入的日志设置告警,也可以在 CloudWatch 中可视化筛选器的统计数据。每次在 CloudTrail 服务级别进行配置更改时,都会触发在您 AWS 账户中创建的 CloudWatch 告警。使用 CloudWatch 告警检测 AWS CloudTrail 配置更改,以维护服务配置的完整性。
建议:
确保同时启用日志指标筛选器和告警。
3. 应启用 CloudTrail 并配置至少一个多区域 Trail (优先级:高)
基准:
检查 CloudTrail 是否已启用并配置了至少一个多区域 Trail。
描述:
创建多区域 CloudTrail 时,AWS 实际上会在每个区域(对于组织 Trail,还会在每个账户中)设置 Trail。它们是将数据发送到共享 S3 存储桶的独立 Trail。因此,通过创建多区域 Trail,数据将集中收集。
建议:
开启 CloudTrail 并配置至少一个多区域 Trail。
4. 确保启用 CloudTrail 全局服务(优先级:高)
资源级别描述:
启用 CloudTrail 全局服务可捕获区域性和全局性事件,有助于更好地了解 AWS 账户的 API 活动。
基准:
确保启用 CloudTrail 全局服务。
描述:
通过启用 CloudTrail 全局服务,提升对 AWS 账户中 API 活动的可见性。这可加强安全性,并通过捕获非特定区域的活动(如 IAM 事件)简化 AWS 账户管理。您还可以从一个位置管理所有区域的 Trail 配置,并在未使用的区域记录 API 调用,以检测任何异常活动。
建议:
启用 CloudTrail 全局服务,以更好地管理 AWS 账户并强化云基础设施的安全性。
5. 确保存储 CloudTrail 日志的 S3 存储桶不可公开访问(优先级:高)
资源级别描述:
公开可访问的 S3 存储桶 CloudTrail 日志会破坏资源的安全性。
基准:
确定您的 S3 存储桶 CloudTrail 日志是否可公开访问。
描述:
Amazon S3 存储桶和对象默认为私有;只有创建存储桶的人员才能访问该存储桶及其包含的对象。CloudTrail 日志可能包含您账户中 API 活动的详细事件。如果您为 CloudTrail 日志存储的 S3 存储桶提供的权限不够安全,您可能会向恶意用户提供对 AWS 账户日志数据的访问权限,从而增加未经授权访问的风险。
建议:
确保与 CloudTrail 日志记录关联的 S3 存储桶不可公开访问,并保护您的 AWS 账户日志数据。
6. 应启用 CloudTrail 并配置至少一个多区域 Trail(优先级:高)
资源级别描述:
未配置至少一个多区域 Trail 的 CloudTrail Trail 可能会影响资源的可用性。
基准:
检查 CloudTrail 是否已启用并配置了至少一个多区域 Trail。
描述:
创建多区域 CloudTrail 时,AWS 实际上会在每个区域(对于组织 Trail,还会在每个账户中)设置 Trail。它们是将数据发送到共享 S3 存储桶的独立 Trail。因此,通过创建多区域 Trail,数据将集中收集。
建议:
开启 CloudTrail 并配置至少一个多区域 Trail。
7. 确保同时存在日志指标筛选器和告警(优先级:中等)
资源级别描述:
必须启用日志指标筛选器和告警,以确保资源的高可用性。
基准:
确定是否存在用于检测 CloudTrail 配置更改的 CloudWatch 指标筛选器和告警。
描述:
指标筛选器用于从 CloudTrail 传输到 CloudWatch 的日志数据中创建数值。您可以根据传入的日志设置告警,也可以在 CloudWatch 中可视化筛选器的统计数据。每次在 CloudTrail 服务级别进行配置更改时,都会触发在您 AWS 账户中创建的 CloudWatch 告警。使用 CloudWatch 告警检测 AWS CloudTrail 配置更改,以维护服务配置的完整性。
建议:
确保同时启用日志指标筛选器和告警。
Amazon Key Management Service (KMS)
1. 确保启用 KMS 密钥轮换 (优先级:中等)
基准:
确定 KMS 密钥是否可以轮换。
描述:
轮换 KMS 密钥有助于降低密钥泄露的潜在影响,因为使用新密钥加密的数据无法通过之前泄露的密钥访问。
建议:
确保轮换客户创建的 KMS 密钥,降低密钥泄露的风险。
2. 确保启用 KMS 密钥轮换(优先级:中等)
资源级别描述:
必须启用客户创建 KMS 密钥的轮换,以防止密钥暴露。
基准:
确定 KMS 密钥是否可以轮换。
描述:
轮换 KMS 密钥有助于降低密钥泄露的潜在影响,因为使用新密钥加密的数据无法通过之前泄露的密钥访问。
建议:
确保轮换客户创建的 KMS 密钥,降低密钥泄露的风险。
Amazon Elastic Container Service (ECS)
1. Amazon ECS 集群 - 容器洞察(优先级:中等)
基准:
检查受监控的集群是否启用了容器洞察。
描述:
监控是维护 Amazon ECS 集群可靠性、可用性和性能的重要组成部分。使用 AWS CloudWatch 容器洞察可收集、汇总和汇总来自容器化应用程序和微服务的指标和日志。CloudWatch 自动收集许多资源(如 CPU、内存、磁盘和网络)的指标。容器洞察还提供诊断信息(如容器重启故障),帮助您快速隔离和解决问题。
建议:
容器洞察在集群创建后无法启用。建议创建启用了容器洞察的新集群。
所需权限:
- "ecs:DescribeClusters"
Amazon Virtual Private Cloud (Amazon VPC)
1. 未使用的虚拟私有网关(优先级:低)
基准:
检查 Amazon 虚拟私有网关 (VGW) 的配置,识别未与 VPN 连接 VPC 端关联的未使用 VGW。
描述:
每个未使用(已分离)的 AWS 虚拟私有网关都应从 AWS 账户中删除,以便于更好地管理并防止达到服务限制。
建议:
识别并删除在您的 AWS 账户中预置的任何未使用的虚拟私有网关,以避免达到服务限制(默认情况下,每个 AWS 区域限制 5 个 VGW,无论是否已连接)。
所需权限:
"ec2:DescribeVpcs"
2. Amazon VPN 隧道 - 运行中(优先级:高)
基准:
确保 AWS 虚拟私有网络 (VPN) 隧道的状态为"运行中",以确保通过虚拟私有网络的网络流量畅通。
描述:
持续监控 VPN 隧道将帮助您在发生故障时立即采取行动,以最大化正常运行时间并确保 Amazon VPN 连接的网络流量始终畅通。
建议:
如果您的 AWS VPN 连接隧道当前处于离线状态,请确保防火墙配置允许防火墙策略中的 VPN 连接隧道。
所需权限:
- "ec2:DescribeVpnConnections"
3. Amazon VPC - 对等连接配置(优先级:中等)
基准:
确保 Amazon VPC 对等连接配置符合所需的路由策略。
描述:
正确配置 VPC 对等连接路由表可以将流量限制在所需资源之间,从而有效降低安全漏洞的影响,因为这些路由之外的 AWS 资源对对等 VPC 不可访问。
建议:
确定与对等 VPC 关联的路由表是否实施了正确的路由策略。
所需权限:
- "ec2:DescribeVpcPeeringConnections"
- "ec2:DescribeRouteTables"
4. Amazon VPC - 流日志(优先级:中等)
基准:
确保在所有适用的 AWS 区域中启用虚拟私有云 (VPC) 流日志功能。
描述:
启用后,VPC 流日志将开始收集进出 VPC 的网络流量数据,从而帮助您检测和排除安全问题,并确保网络访问规则不会过于宽松。当 VPC 网络中触发异常活动(如拒绝的连接请求或异常级别的数据传输)时,您也会收到通知。
建议:
为您的 AWS VPC 启用流日志。
所需权限:
- "ec2:DescribeVpcs"
- "ec2:DescribeFlowLogs"
Amazon EC2 Auto Scaling
1. 与负载均衡器关联的 Auto Scaling 组的健康检查(优先级:中等)
资源级别描述:
与负载均衡器关联的 ASG 必须使用负载均衡器健康检查,以确保资源的可用性。
基准:
检查与负载均衡器关联的 Auto Scaling 组 (ASG) 是否为负载均衡器配置了健康检查。
描述:
Auto Scaling 组的默认健康检查仅为 EC2 状态检查,如果实例未通过负载均衡器提供的健康检查,ASG 不会将其视为不健康。您可以通过配置 ASG 使用负载均衡器健康检查,从负载均衡器判断实例的健康状态。
建议:
向 ASG 添加负载均衡器健康检查,使实例健康状态由 EC2 状态检查和负载均衡器健康检查共同决定。
2. Amazon EC2 实例 Auto Scaling 组 (EC2) - 使用启动模板(优先级:中等)
基准:
检查 Amazon EC2 Auto Scaling 组是否从 EC2 启动模板创建。
描述:
EC2 Auto Scaling 组可以从 EC2 启动模板或启动配置创建。但是,使用启动模板创建 Auto Scaling 组可确保您访问到最新的功能和改进。
建议:
考虑将 EC2 Auto Scaling 组从启动配置迁移到启动模板。
所需权限:
- "autoscaling:DescribeAutoScalingGroups"
AWS Glue
1. AWS Glue - 自动扩展工作线程数量 (优先级:中等)
基准:
检查 Glue 作业是否启用了自动扩展工作线程数量选项。
描述:
通过自动扩展,AWS Glue 可以根据作业工作负载动态调整作业使用的工作线程数量。虽然自动扩展可优化资源使用,但需注意增加资源最大容量可能会导致更高成本。
建议:
为 Glue 作业启用自动扩展工作线程数量选项,以提高可用性。
AWS DRS
1. 弹性灾难恢复 - 数据复制(优先级:低)
基准:
检查是否启用了数据复制。
描述:
弹性灾难恢复数据复制在发生灾难时可最大程度减少数据丢失,并允许快速故障转移到复制环境。通过频繁复制数据,AWS DRS 有助于实现较低的恢复点目标 (RPO)。
建议:
定期数据复制可避免数据丢失并确保恢复过程。因此,请为弹性灾难恢复启用数据复制。
视频
以下是关于 AWS 监控最佳实践的快速视频:
合规性检查
Site24x7 针对 AWS 指导报表中提供的最佳实践建议进行合规性检查。这些检查可发现安全漏洞,并帮助您分析云基础设施是否符合全球安全和合规标准。您可以识别不合规的实践并获得合规建议。
Site24x7 针对以下安全标准和认证进行合规性检查:
- PCI DSS:支付卡行业数据安全标准 (PCI DSS) 确保所有实体为处理、存储或传输的信用卡信息维护安全环境。
- GDPR:《通用数据保护条例》(GDPR) 是一项全欧洲法规,要求企业在处理客户个人数据时保护其个人数据和隐私。
- NIST:遵守美国国家标准与技术研究所 (NIST) 标准可确保联邦机构满足《联邦信息安全管理法》(FISMA) 的要求。
- APRA:澳大利亚审慎监管局 (APRA) 要求金融和保险行业的组织加强其信息安全框架。
- MAS:新加坡金融管理局 (MAS) 针对金融机构在个人责任和行为规范方面执行指导方针。
- HIPAA:1996 年颁布的《健康保险可携带性和责任法案》(HIPAA) 是一项联邦法律,禁止在未经患者同意或知情的情况下披露敏感患者健康信息。
- CIS:互联网安全中心 (CIS) 基准是保护 IT 系统和数据免受网络攻击的安全标准。
查看合规性检查
您可以查看合规性数据以及针对 AWS 实例的最佳实践建议。
常见问题解答 (FAQ)
1. Site24x7 的 AWS 指导报表是什么?
指导报表会检查您的 AWS 环境,帮助您识别有效利用 EC2 实例、EBS 卷、ELB 节点等资源的机会。
2. 指导报表对所有用户均可用吗?
是的。Site24x7 的 AWS 指导报表对所有 Site24x7 订阅用户(包括付费用户和评估用户)均可用。您只需通过 IAM 用户创建或跨账户 IAM 角色启用访问权限,并将您的 AWS 账户连接到 Site24x7 即可。
3. 指导报表的限制
- 目前,指导报表仅为部分 AWS 服务提供建议检查。
- 仅检查已监控资源的合规性。使用各种自动发现筛选器排除的资源不在考虑范围内。
4. 如何访问指导报表?
对于已监控的 AWS 账户
- 登录 Site24x7 Web 控制台,从左侧导航窗格中选择 AWS,然后选择要查看建议的 AWS 账户。
- 在菜单下拉列表中,选择指导报表。
对于新集成的 AWS 账户
需要一小时时间(从 AWS 账户集成起)来生成指导报表。完成后,您可以登录 Site24x7 控制台,选择已监控的 AWS 账户 > 指导报表来查看建议。
5. 报表更新频率如何?
指导报表将从 AWS 账户集成之时起每周更新一次。
6. 电子邮件通知方面如何?
每周会向与您的 Site24x7 订阅账户关联的超级管理员联系人发送电子邮件更新。
7. 我可以计划该报表吗?
可以。您可以使用计划报表功能选择频率(每日、每周或每月)、一天中的时间以及用户组。
8. 新监控的资源会出现在指导报表中吗?
报表每周更新和刷新一次,在此期间发现并监控的任何不符合我们检查的新资源都将包含在报表中。
9. Site24x7 如何收集提供建议所需的数据?
Site24x7 使用各种 AWS 服务级别 API 收集配置信息。通过轮询 CloudWatch API 收集的资源使用指标用于识别空闲/未使用的资源。
10. Site24x7 如何提供实例类型建议?
在启用指导报表的情况下,Site24x7 会分析实例的关键指标(如 CPU 和内存使用率)以及当前实例类型。通过综合分析这两者,Site24x7 会根据您的使用模式提供使用合适实例类型的建议。
