帮助手册

AppLogs 告警

Site24x7 的 AppLogs 告警允许您设置阈值,并向预定义的用户告警组发送通知,让您能在关键操作问题刚刚出现时就予以应对。

本文档涵盖以下内容:

AppLogs 告警的使用场景

  1. 您希望监控 IIS 服务器中特定 URL 的平均响应时间,并在响应时间超过配置阈值时接收告警。在这种情况下,您可以使用以下查询创建告警:
    logtype="IIS Access Logs" and stemuri="/EmpApp/" AVG(timetaken)
    将属性配置为 AVG(timetaken) > 60000 并将检查频率设置为 30 分钟,当特定请求的平均耗时超过一分钟(60000 毫秒)时,您将收到告警。此条件每 30 分钟检查一次。
  2. 您希望在 IIS 服务器中出现过多响应 500 错误时接收告警。在这种情况下,请使用以下查询:
    logtype="IIS Access Logs" and statuscode=500
    将属性配置为 count > 10 并将检查频率设置为五分钟,当五分钟内出现超过 10 个 500 状态码请求时,您将收到告警。此条件每五分钟检查一次。
  3. 您希望在 IIS 服务器中某个来源 IP 产生过多响应 404 错误时接收告警。请使用以下查询:
    logtype="IIS Access Logs" and statuscode=404 groupby clientip
    将属性配置为 count > 100 并将检查频率设置为 10 分钟,当任意单一来源在 10 分钟内产生超过 100 个 404 状态码请求时,您将收到告警。此条件每 10 分钟检查一次。
  4. 您希望在 IIS 服务器中某个特定监视器抛出过多响应 500 错误时接收告警。请使用以下查询:
    logtype="IIS Access Logs" and statuscode=500 and monitor_name = "TEST_SERVER"
    将属性配置为 count > 10 并将检查频率设置为五分钟,当"TEST_SERVER"监视器在五分钟内出现超过 10 个 500 状态码请求时,您将收到告警。此条件每五分钟检查一次。
    注意

    如果希望在 IIS 服务器中任意已安装代理的响应 500 错误超过配置阈值时接收告警,请使用以下查询:

    logtype="IIS Access Logs" and statuscode=500 groupby monitor_name

AppLogs 日志类型的监视器级支持

为 AppLogs 中的日志类型配置告警后,该日志类型将被视为监视器。

将日志类型视为监视器后,您可以:

  • 首页 > 监视器页面查看 AppLogs 监视器及其他监视器。
  • 配置通知配置文件。
  • 通过您选择的第三方 ITSM 和协作工具接收通知。
  • 将日志类型监视器标记为维护模式,以停止接收 AppLogs 告警。
  • 配置监视器,使其在生成任意 AppLogs 告警时切换到告警状态。
  • 从 AppLogs 监视器摘要页面批量编辑日志类型的阈值和删除所有 AppLogs 告警。

配置告警

从 AppLogs 搜索页面配置告警:

  1. 登录您的 Site24x7 账户,导航至 AppLogs 选项卡。
  2. 输入有效查询
  3. 点击查询字段最右侧的告警
  4. 配置告警弹窗中输入以下内容:
    • 显示名称:输入用于标识告警的显示名称。
    • 查询:此处将显示您的查询(参见步骤 2)。
    • 告警类型:在以下选项之间切换并设置条件。
      • 趋势告警:告警将基于在配置天数内使用指数加权移动平均 (EWMA) 算法学习到的趋势。为此,您还需要配置趋势观察天数,即观察日志采集趋势的周期,之后将开始接收告警。
      • 计数告警:计数即您的日志行数,超过此数量时将收到告警。
      • 新数据检测:新检测到的数据告警会在指定时间内未出现的数据被发现时及时发送通知,为您提供更好的日志活动可见性。
        • 检测频率:选择新数据检测后,将出现检测频率字段,允许您以小时为单位设置频率。该频率决定 Site24x7 检查新检测数据并为指定时间内未出现的数据触发告警的时间间隔。此外,该值设置了文档后面描述的检查频率字段的最大上限。例如,如果检测频率设置为 24 小时,则检查频率不能超过 24 小时。
          新数据检测的默认查询
          以下是一些预配置查询,旨在识别各种日志类型中的新检测数据。这些查询的检测频率为三天,检查频率为一天。可根据具体监控需求进行自定义:
          • 耗时较长的新 URI:识别 IIS 访问日志中耗时超过 1000ms 的新请求 URI。
            查询:logtype="IIS Access Logs" and timetaken>1000 groupby stemuri
          • 请求 URI 的新 500 错误代码:检测 IIS 访问日志中因 500 状态码而失败的新 URL。
            查询logtype="IIS Access Logs" and statuscode=500 groupby stemuri
          • Windows 事件日志中的新事件:捕获 Windows 事件日志中的新事件 ID。
            查询: logtype="Windows Event Logs" groupby eventid
          • Java 日志中的新异常:跟踪 Java 日志中按 Java 类名分组的新异常。
            查询logtype="Java Logs" and message "exception" groupby classname
          • 响应体积较大的新 URI:标记 Apache 访问日志中响应体积超过 1MB 的新 URI。
            查询logtype="Apache Access Logs" and responsesize>1048576 groupby url
    • 属性:从下拉列表中选择属性,并设置条件(>、<、>=、<=、!= 或 =)。对于趋势告警,您可以将属性设置为"增加"、"减少"或"增加或减少",然后设置该属性的阈值。

      配置基于相对时间的告警
      当您的查询包含"before"时,您可以将结果与一天前、七天前或您提供的时间段的相同时间进行比较。在这种情况下,属性将在下拉菜单中显示差值和差值百分比等字段。您可以根据这两者中的哪个来选择接收告警的依据。结果将显示当前值、前值(在"x"时间之前)以及百分比增减。您可以根据配置的阈值,选择基于两者之差或差值百分比来接收告警。这类告警有助于跟踪关键绩效指标,在与前一时期相比出现突然增减时接收告警。

      例如,在下方截图中,我们将 Log4J 日志当前异常数量与一天前相同时间段(09:48 - 10:48)的异常数量进行比较。查询结果显示当前值、前值以及异常数量的百分比下降。您可以根据输入的查询配置告警,并选择基于两者之间的差值或差值百分比来接收告警。
      注意

      默认情况下,将选择"count"属性,每个告警只能配置一个属性。您也可以为日志中数字字段的最小值、最大值或平均值配置告警。

    • 检查频率:从下拉菜单中选择检查频率,选项范围从 5 分钟到 5 天。
  5. 阈值配置:阈值配置帮助告警引擎判断特定 AppLogs 告警的状态。添加条件并设置希望接收告警的值。
  6. 配置文件
    • 通知配置文件:通知配置文件有助于配置宕机时通知的对象和时间。从下拉列表中选择通知配置文件,使用默认配置文件,或创建自定义通知配置文件
    • 用户告警组:选择在出现异常时应收到告警的组。您也可以创建新用户告警组并将其关联到此查询。
    • 标签:将监视器与预定义的标签或多个标签关联,以帮助创造性地整理和管理监视器。
    • IT 自动化模板:选择当 AppLogs 监视器状态发生变化时要执行的自动化模板。状态变更时将执行定义的操作,同时告警所选用户组。
    注意

    所有配置文件设置均在日志类型的监视器级别应用。更改日志类型中某个 AppLogs 告警的任何设置将影响该日志类型下创建的所有告警。

  7. 第三方集成:将监视器与预配置的第三方服务关联。这样可以将监视器告警推送到所选服务,便于改进事件管理。如果尚未设置任何集成,请导航至管理 > 第三方集成创建集成
  8. 点击保存
注意

您还可以为 AppLogs 告警设置电子邮件、短信、语音通话和即时消息告警。了解 AppLogs 告警的许可

管理告警

从管理选项卡管理已配置的告警:

  1. 转到管理 > AppLogs > 告警。此页面列出所有已配置的告警。
  2. 点击告警可以编辑其配置。
  3. 要编辑告警的搜索查询,点击告警旁的 编辑图标 图标。您将被重定向到 AppLogs 搜索页面,在那里您可以编辑告警的属性(包括搜索查询)。
  4. 您也可以从此处删除已配置的告警。

告警的批量操作

您可以使用"批量操作"按钮批量更新 AppLogs 告警的检查频率和用户告警组。

操作步骤:

  1. 导航至管理 > AppLogs > 告警
  2. 在页面右上角的搜索框中输入显示名称或搜索查询。
  3. 点击显示名称前的复选框选择告警,或点击顶部的复选框选择所有搜索结果。
  4. 点击批量操作以打开弹窗。
  5. 选择所需的检查频率以更新所选告警。
  6. 选择用户告警组以更新所选告警。
  7. 点击保存
  8. 所选的检查频率用户告警组值将仅应用于所选告警。
注意

您还可以执行告警的批量删除。为此,重复步骤 1 至 3,然后点击删除

持续告警

告警仅在状态发生变化时触发。例如,如果与监视器关联的告警在晚上 8:30 遇到问题,将发送一条表明问题的告警。在与监视器关联的告警保持该状态期间,不会再发送其他告警。当与监视器关联的告警切换到不同状态(如严重或正常)时,才会触发下一条告警。

为确保持续收到通知,请在与日志类型监视器关联的通知配置文件中配置持续告警。持续告警会不断发送通知,直到您确认严重或告警状态。它们根据每次通知间隔字段中设置的频率运行。

使用场景

让我们来看一个持续告警的使用场景。

如果您希望在应用程序中发生 HTTP 500 错误时收到 AppLogs 告警,可以按如下方式操作:

HTTP 500 错误通常表示可能影响用户和网站整体功能的严重问题。您可以设置基于计数或趋势的告警,以接收即时通知。

以下是设置检查频率为每五分钟的基于计数告警的示例:

logtype="Application logs" and apiname CONTAINS "my-app" and statuscode="500"

如果查询结果超过设定的阈值,将触发告警。例如,如果检查频率设置为五分钟,且日志在上午 9 时触发告警,您将收到一条告警。

要持续接收 HTTP 500 错误的通知(无论监视器状态如何),您可以在通知配置文件中设置持续告警(通过管理 > 配置文件 > 通知配置文件)。

每次通知间隔字段设置为 1,以便在发现新的匹配日志时接收告警。

启用持续告警后,系统将在上午 9:05 再次检查。如果发现新的匹配日志,它们将包含在告警中。

注意

每个监视器在告警或严重状态下最多可有 30 个持续告警。

AppLogs 告警状态组件

管理多个日志类型可能会产生多个告警。每个被触发的告警最终都会修改相应日志类型的状态。例如,10 个告警中,即使只有一个出现问题,日志类型监视器状态也会切换为告警

AppLogs 告警状态组件将每个 AppLog 告警显示为一个带颜色编码的磁贴,即时反映其严重性状态,如严重告警正常,并提供背后原因以帮助您立即采取行动。点击磁贴可查看详细的日志信息,并提供包含搜索查询的完整上下文。

根据您的视觉偏好,可以在组件的网格视图和蜂巢视图之间轻松切换,蜂巢视图为默认视图。

配置 AppLogs 告警状态组件

请按以下步骤配置状态组件:

  1. 转到首页 > 仪表板 > 自定义仪表板选项卡 > 点击仪表板视图右上角的新建
    1. 如果希望编辑现有仪表板,选择相应仪表板,然后点击顶部的编辑仪表板
  2. 在仪表板页面中,您可以从工具栏执行以下操作:
    1. 点击添加组件,从左侧面板添加所需组件。
    2. AppLogs > 下,点击告警状态
    3. 或者,您可以在左侧面板搜索栏中搜索告警状态,然后点击告警图像。
  3. 在 AppLogs 告警状态组件弹窗中,填写以下详细信息:
    • 组件名称:为组件提供自定义名称以便识别。
    • 告警:可以选择多个告警和日志类型。
    • 严重性:按严重性状态筛选:严重告警正常
    • 告警名称正则表达式:支持正则表达式输入,以根据自定义模式过滤告警名称。示例:要显示所有以 K8s 开头的告警名称,请使用正则表达式:K8s.*
  4. 点击添加组件

AppLog 告警状态组件将被添加到您的仪表板中。

常见问题

1. 我可以编辑告警查询中的日志类型吗?

不可以,您无法编辑告警查询中的日志类型(例如 logtype="sample")。如果需要更改日志类型,必须删除现有告警并使用所需日志类型创建新告警。但是,您可以编辑日志类型之后的条件或聚合查询。

2. 为日志类型创建告警时会发生什么?

为日志类型配置第一个告警时,将自动创建一个以日志类型名称为显示名称的日志类型监视器。

注意: AppLogs 还为默认日志类型提供默认告警。在这两种情况下(无论是系统生成的告警还是自定义告警),日志类型的第一个告警都会自动生成以日志类型名称为显示名称的日志类型监视器。

3. 我可以为单个日志类型配置多个告警吗?

是的,您可以为单个日志类型配置多个告警。为该日志类型创建的所有告警都与同一个日志类型监视器关联。

4.如果日志类型监视器有关联的告警,我可以删除或暂停它吗?

不可以,您不能删除或暂停有关联告警的日志类型监视器。要删除监视器,必须先删除与其关联的告警。要删除告警,请导航至指标 > AppLogs 并删除告警,或从管理 > AppLogs > 告警中删除。

5.日志采集错误状态与日志类型监视器状态之间有关联吗?

没有,日志采集错误状态与日志类型监视器状态之间没有关联。日志采集错误状态不影响日志类型监视器状态。日志类型监视器状态由与该日志类型关联的告警状态决定。

6.如果我具有监视器权限,想为日志类型创建第一个告警,应该怎么做?

为日志类型创建第一个告警时,必须将其关联到监视器组才能正确设置。如果其他用户没有该监视器组的权限,他们将无法创建告警。

相关文章

延伸阅读

博客: 实时跟踪事件:通过主动日志分析增强监控

本文档对您有帮助吗?

您愿意帮助我们改进文档吗?请告诉我们哪些方面可以做得更好。


很抱歉本文档未能让您满意。我们希望了解可以从哪些方面改进您的体验。


感谢您抽出时间分享反馈。我们将利用您的反馈来改进在线帮助资源。

短链接已复制!