Amazon CloudWatch Logs 集成
Amazon CloudWatch Logs 是一项监控服务,支持您近乎实时地从 AWS 资源、应用程序和服务中收集、存储和分析日志数据。Site24x7 与 CloudWatch Logs 的集成可在集中式仪表板中无缝监控和分析您的 AWS 日志数据。
通过将 CloudWatch Logs 与 Site24x7 集成,您可以实时查看应用程序日志、系统日志和 AWS 服务日志,从而检测异常、更快地排查问题并提高运营效率。
概述
Site24x7 与 CloudWatch Logs 的集成可帮助您聚合、搜索和分析来自多个 AWS 服务的日志数据,根据日志模式设置告警,并将日志与性能指标关联以实现全面的可观测性。此集成除 CloudWatch Logs 监视器外,还提供以下子监视器:
- CloudWatch Logs 区域监视器:监控特定 AWS 区域内所有 CloudWatch 日志组的健康状况和可用性。
- CloudWatch 日志组监视器:跟踪特定 CloudWatch 日志组的日志摄取指标和自定义过滤器,以识别关键事件和趋势。
使用场景
借助 Site24x7 与 Amazon CloudWatch Logs 的集成,客户可以通过在日志组级别监控关键指标,深入了解其 AWS 工作负载的性能、安全性和可靠性。
例如,使用 CloudWatch 日志组监视器,用户可以跟踪与订阅过滤器、日志转换器和异常检测器相关的指标,以及一般日志组级别的指标。订阅过滤器允许用户设置模式,并将已过滤的日志事件实时路由到其他 AWS 服务(例如 Amazon Kinesis、AWS Lambda 或 Amazon Data Firehose)进行下游分析或处理。
Site24x7 通过告警用户这些过滤器中的传递错误和限流问题,增强了此功能,帮助他们及时解决数据摄取问题。此外,还监控转换器指标(包括已转换字节数、转换错误数和已处理事件数),以确保日志在存储或分析之前高效地被标准化。这在处理来自异构来源的日志时尤其有用。此外,当任何日志组的数据保护或异常检测等关键配置被禁用时,Site24x7 还会通知用户,以维护合规性和安全态势。总体而言,该集成使用户能够主动管理日志健康、更快地排查问题,并优化整个 AWS 环境中的日志处理流程。
Site24x7 Amazon CloudWatch Logs 集成的优势
Site24x7 与 CloudWatch Logs 的集成为您提供以下优势:
- 状态传播与主动告警:配置阈值后,子监视器中的任何状态变化都会自动更新父监视器的状态,确保及时告警和更快的事件响应。
- 区域级可见性:CloudWatch Logs 区域监视器提供账户级别的洞察,包括订阅过滤器、转换指标、日志组总数以及日志组使用的总存储空间,帮助您监控跨 AWS 区域的日志活动。
- 日志组级洞察:CloudWatch 日志组监视器提供详细的日志组级可见性,包括日志组订阅过滤器和转换设置的指标,让您跟踪各日志组的健康状况和配置。
- 专注于活跃日志组:仅主动监控上个月内有更新的日志组,确保收集的数据是最新且相关的,从而提高性能并减少噪音。
- 改进的运营情报:深入了解活跃日志组和日志基础设施的健康状况,实现更高效的故障排除、审计和性能优化。
设置与配置
- 登录您的 Site24x7 账户。
- 转到云 > AWS > 集成 AWS 账户,创建跨账户 IAM 角色,以使 Site24x7 能够访问您的 AWS 资源。
- 在集成 AWS 账户页面,根据您的需求,从待发现的服务列表中选择 CloudWatch Logs。
权限
请确保 Site24x7 获得以下权限,以监控 Amazon CloudWatch Logs:
- "logs:GetDataProtectionPolicy",
- "logs:DescribeLogGroups",
- "logs:ListLogAnomalyDetectors",
- "logs:DescribeLogStreams",
- "logs:DescribeSubscriptionFilters",
- "logs:GetLogEvents",
- "logs:DescribeAccountPolicies",
- "logs:DescribeMetricFilters",
- "logs:DescribeFieldIndexes",
- "logs:ListTagsForResource"
轮询频率
Site24x7 按设定的轮询频率(从每分钟一次到每天一次)查询 AWS 服务级别 API,以从 Amazon CloudWatch Logs 监视器收集指标。
支持的指标
以下是 Amazon CloudWatch Logs 监视器支持的指标。
CloudWatch Logs 区域监视器
| 指标名称 | 描述 | 统计方式 | 单位 |
|---|---|---|---|
| 日志组总数 | 区域中日志组的总数。 | 最大值 | 个 |
| 已使用的总存储空间 | 区域中日志组已使用的总存储空间。 | 求和 | MB |
| 标准级日志组数量 | 标准级日志组的总数。 | 最大值 | 个 |
| 低频访问级日志组数量 | 低频访问级日志组的总数。 | 最大值 | 个 |
| 最近一小时内的日志组数量 | 最近一小时内创建的日志组数量。 | 最大值 | 个 |
| 指标过滤器数量 | 区域中指标过滤器的总数。 | 最大值 | 个 |
| 调用次数 | 在您的账户中执行的指定 API 操作次数。 | 求和 | 次 |
| 错误次数 | 在您的账户中执行的导致错误的 API 操作次数。 | 求和 | 次 |
| 限流次数 | 在您的账户中因使用配额而被限流的 API 操作次数。 | 求和 | 次 |
| 账户级传递错误 | CloudWatch Logs 在向订阅目标转发数据时收到错误的日志事件数量(针对账户级订阅过滤器)。 | 求和 | 次 |
| 账户级传递限流 | CloudWatch Logs 在向账户级订阅目标转发数据时被限流的日志事件数量。 | 求和 | 次 |
| 账户级转发字节数 | 转发到账户级订阅目标的压缩字节格式日志事件量。 | 求和 | 字节 |
| 账户级转发日志事件数 | 转发到账户级订阅目标的日志事件数量。 | 求和 | 次 |
| 账户级转换错误数 | 使用账户级转换器转换日志事件时遇到的错误数量。 | 求和 | 次 |
| 账户级已转换字节数 | 已转换日志事件输出的未压缩字节量。 | 求和 | 字节 |
| 账户级已转换日志事件数 | 由账户级转换器转换的日志事件数量。 | 求和 | 次 |
CloudWatch 日志组监视器
| 指标名称 | 描述 | 统计方式 | 单位 |
|---|---|---|---|
| 已使用的总存储空间 | 日志组使用的存储空间量。 | 求和 | MB |
| EMF 解析错误数 | 处理嵌入式指标格式日志时遇到的解析错误数量。当日志被识别为嵌入式指标格式但不符合正确格式时,会发生这些错误。 | 求和 | 次 |
| 传入字节数 | 上传到日志组的非压缩字节格式日志事件量。 | 求和 | 字节 |
| EMF 验证错误数 | 处理嵌入式指标格式日志时遇到的验证错误数量。当嵌入式指标格式日志中的指标定义不符合嵌入式指标格式和 MetricDatum 规范时,会发生这些错误。 | 求和 | 次 |
| 传入日志事件数 | 上传到日志组的日志事件数量。 | 求和 | 次 |
| 日志组级转换错误数 | 使用日志组级转换器转换日志事件时遇到的错误数量。 | 求和 | 次 |
| 日志组级已转换字节数 | 已转换日志事件输出的未压缩字节量。 | 求和 | 字节 |
| 日志组级已转换日志事件数 | 已转换的日志事件数量。 | 求和 | 次 |
| 中优先级异常数量 | 中优先级异常的数量。 | 求和 | 次 |
| 高优先级异常数量 | 高优先级异常的数量。 | 求和 | 次 |
| 低优先级异常数量 | 低优先级异常的数量。 | 求和 | 次 |
| 指标过滤器数量 | 日志组中的指标过滤器数量。 | 最大值 | 个 |
| 日志组级传递错误 | CloudWatch Logs 在向订阅目标转发数据时收到错误的日志事件数量。 | 求和 | 次 |
| 日志组级转发字节数 | 转发到订阅目标的压缩字节格式日志事件量。 | 求和 | 次 |
| 日志组级转发日志事件数 | 转发到订阅目标的日志事件数量。 | 求和 | 次 |
阈值配置
要为 CloudWatch Logs 监视器配置阈值,请执行以下操作:
- 登录您的 Site24x7 账户,导航至管理 > 配置文件 > 阈值和可用性。
- 单击添加阈值配置文件。
- 从监视器类型下拉菜单中选择适用的监视器类型。可用的监视器类型为 CloudWatch Logs、CloudWatch Logs 区域和 CloudWatch 日志组。
- 在显示名称字段中提供合适的名称。
- 支持的指标将显示在阈值配置部分。您可以为上述所有指标设置阈值。
- 单击保存。
CloudWatch Logs 监视器中的状态传播
Site24x7 的 CloudWatch Logs 集成包含状态传播功能,确保来自子监视器的告警能够传播到父 CloudWatch Logs 监视器。通过在编辑阈值配置文件页面启用子监视器状态变化时通知选项,您可以简化跨 CloudWatch Logs 资源的告警处理方式。
CloudWatch Logs 区域和 CloudWatch 日志组等子监视器将在任何状态变化时通知父 CloudWatch Logs 监视器。此传播有助于您维护所有告警的集中视图,并确保及时响应潜在问题。
例如,如果 CloudWatch 日志组监视器检测到高错误率并变为告警状态,此状态将自动传播到父 CloudWatch Logs 监视器,触发告警——前提是启用了子监视器状态变化时通知选项。这确保您在顶层就能收到告警,而无需检查每个单独的日志组监视器。
许可
- 每 100 个 CloudWatch 日志组监视器将消耗一个高级监视器许可证。这意味着 Site24x7 将每 100 个 CloudWatch 日志组监视器视为一个高级监视器单元,而不是单独计算。
- CloudWatch Logs 和 CloudWatch Logs 区域监视器是免费监视器。
查看 Amazon CloudWatch Logs 数据
要监控您的 CloudWatch Logs 环境,请登录您的 Site24x7 账户,导航至云 > AWS > CloudWatch Logs。
监视器数据
以下是每个 Amazon CloudWatch Logs 监视器的监视器数据。
CloudWatch Logs
摘要
摘要选项卡以图表形式提供事件时间线和指标的概述。
区域
查看区域可用性以及区域监视器列表,包括其状态、监视器类型和操作选项。您可以使用首选源服务器监视器的操作按钮配置阈值,也可以使用阈值配置按钮批量设置阈值。要查看 CloudWatch Logs 区域监视器的详细信息,请单击所需监视器名称超链接。
日志组
查看日志组可用性以及日志组监视器列表,包括其状态、监视器类型和操作选项。您可以使用首选源服务器监视器的操作按钮配置阈值,也可以使用阈值配置按钮批量设置阈值。要查看 CloudWatch 日志组监视器的详细信息,请单击所需监视器名称超链接。
拓扑视图
拓扑视图选项卡提供以资源为中心的实时依赖关系图。它实时动态追踪您的 CloudWatch Logs 资源与周边 AWS 基础设施之间的连接关系,在告警触发时实现更快的根本原因隔离。如果任何连接的组件处于严重状态,将在拓扑视图中相应标记,并附上中断原因,使您无需离开监视器页面即可找到确切的故障点。与账户级别的拓扑视图不同,此选项卡将可视化范围限定在单个资源,精准回答:此 CloudWatch Logs 资源连接到哪些内容,以及它出现问题时会影响什么?您可以从单个资源向上追踪完整的依赖链,直至其主要父实体、服务类型、区域和 AWS 账户级别。
中断
中断选项卡提供中断的开始时间、结束时间、持续时间和备注(如有)的详细信息。
清单
在清单选项卡中获取资源名称、检查频率和监视器许可类别等详细信息。阈值和可用性配置文件以及通知配置文件可根据用户进行设置并在此选项卡中查看。
日志报表
此选项卡提供每个 CloudWatch Logs 监视器日志状态的汇总报表,可下载为 CSV 文件。
告警日志
此选项卡显示与 CloudWatch Logs 相关的所有已触发告警的时间顺序列表。该选项卡帮助您追踪告警历史和严重程度,以评估问题并验证阈值设置。
CloudWatch Logs 区域
摘要
摘要选项卡以图表形式提供事件时间线和指标的概述。
日志组
查看日志组可用性以及日志组监视器列表,包括其状态、监视器类型和操作选项。您可以使用首选源服务器监视器的操作按钮配置阈值,也可以使用阈值配置按钮批量设置阈值。要查看 CloudWatch 日志组监视器的详细信息,请单击所需监视器名称超链接。
配置
在此选项卡中查看 CloudWatch Logs 区域监视器的配置信息,例如账户级转换器和账户级订阅过滤器的详细信息。
中断
中断选项卡提供中断的开始时间、结束时间、持续时间和备注(如有)的详细信息。
清单
在清单选项卡中获取资源名称、检查频率和监视器许可类别等详细信息。阈值和可用性配置文件以及通知配置文件可根据用户进行设置并在此选项卡中查看。
日志报表
此选项卡提供每个 CloudWatch Logs 监视器日志状态的汇总报表,可下载为 CSV 文件。
告警日志
此选项卡显示与 CloudWatch Logs 相关的所有已触发告警的时间顺序列表。该选项卡帮助您追踪告警历史和严重程度,以评估问题并验证阈值设置。
CloudWatch 日志组
摘要
摘要选项卡以图表形式提供事件时间线和指标的概述。
日志流
查看与 CloudWatch 日志组监视器关联的日志流列表。单击所需的日志流名称,查看日志事件对话框。日志事件对话框提供日志流名称、创建时间和最后事件时间等详细信息,以及所选时间段内的日志事件列表,供您查看每个事件的消息和时间戳。
订阅过滤器
仅当监视器存在订阅过滤器时,才会显示此选项卡。您可以从此选项卡查看订阅详细信息,例如过滤器名称、过滤器模式、目标 ARN 和目标类型。
指标过滤器
此选项卡显示为所选日志组配置的所有 CloudWatch 指标过滤器。指标过滤器使您能够从日志事件中提取指标数据用于可视化或告警。该选项卡显示关键过滤器属性,例如过滤器名称、创建时间和过滤器模式。
监控的资源
如果日志组与 KMS 服务关联,监控的资源选项卡将列出由 Site24x7 管理和监控的所有 KMS 监视器资源。
数据保护策略
如果已配置数据保护策略,此选项卡将显示日志组的数据保护策略。这些策略通过指定如何识别和编辑 PII 或机密数据,帮助保护日志流中的敏感数据。
拓扑视图
拓扑视图选项卡提供以资源为中心的实时依赖关系图。它实时动态追踪您的 CloudWatch 日志组资源与周边 AWS 基础设施之间的连接关系,在告警触发时实现更快的根本原因隔离。如果任何连接的组件处于严重状态,将在拓扑视图中相应标记,并附上中断原因,使您无需离开监视器页面即可找到确切的故障点。与账户级别的拓扑视图不同,此选项卡将可视化范围限定在单个资源,精准回答:此 CloudWatch 日志组资源连接到哪些内容,以及它出现问题时会影响什么?您可以从单个资源向上追踪完整的依赖链,直至其主要父实体、服务类型、区域和 AWS 账户级别。
配置
在此选项卡中查看配置信息,例如区域、日志组名称和日志组类别。
中断
中断选项卡提供中断的开始时间、结束时间、持续时间和备注(如有)的详细信息。
清单
在清单选项卡中获取日志组名称、检查频率和监视器许可类别等详细信息。阈值和可用性配置文件以及通知配置文件可根据用户进行设置并在此选项卡中查看。
日志报表
此选项卡提供每个 CloudWatch 日志组监视器日志状态的汇总报表,可下载为 CSV 文件。
告警日志
此选项卡显示与 CloudWatch 日志组监视器相关的所有已触发告警的时间顺序列表。该选项卡帮助您追踪告警历史和严重程度,以评估问题并验证阈值设置。
