帮助手册

APM Insight 性能指标

使用 Site24x7 APM Insight(一款应用性能监控(APM)工具)监控您的应用,可让您在可定制的统一控制台中追踪和衡量重要指标——包括 Apdex 评分、应用服务器吞吐量、响应时间、异常等。

查看性能指标

开始前:

  1. 登录 Site24x7 Web 客户端。
  2. 导航至 APM > APM Insight > 应用
  3. 单击您要查看指标的应用。
注意
  • 在右上角,您可以选择所需指标的时间范围。 
  • 单击应用/实例下拉菜单旁的汉堡图标 Hamburger icon,可执行各种操作(例如编辑配置、设置里程碑、关联 RUM 应用、暂停/删除实例、复制 Web 脚本以及将指标导出为 PDF)。

在应用内,您可以在Web 事务后台事务之间切换,以查看相关指标:

  • Web 事务:显示浏览器或客户端中由用户发起、直接影响终端用户体验的操作的指标。对于 Web 事务,Site24x7 还提供更深层的可见性,附加指标包括:
  • 后台事务:除 Web 事务的附加指标外,所有其他指标也适用于后台事务(包括平均响应时间、请求吞吐量、请求数、错误率 %、代理最后通信时间等)。 虽然这些指标对终端用户不可见,但对于维持应用的平稳运行至关重要。
    注意

    数据吞吐量的可见性因采集代理不同而有所差异。

通过访问以下选项卡,可获取应用的各种参数和指标。

概述

此选项卡的基本功能是呈现应用所有主要参数的全局概览。

Apdex 评分

Apdex 评分以 1.0(最高)到 0(最低)的刻度衡量用户对应用性能的满意度。

若 Apdex 评分:

  • 高于 0.9:表示用户对性能感到满意。
  • 在 0.5 到 0.9 之间:表示用户可以接受当前性能。
  • 低于 0.5:表示用户对性能感到不满。
信息
请查阅此 KBase 文章,深入了解 Apdex 评分。

数据吞吐量

数据吞吐量帮助您评估传入请求的大小,让您了解应用服务器正在处理多少数据。

例如,从上图可以看出,特定事务 arh/trace 的请求大小高于其他请求。

这有助于您评估传入请求的一般大小,在传入请求大小出现突然峰值时尤为有用。

例如,在遭受 DDOS 攻击时,通过了解您的平均请求大小,您可以轻松发现恶意传入请求因数据量异常庞大而造成的异常。

其他指标请参阅下表。

  参数   描述
Apdex 衡量用户对应用性能满意度的数值指标(1 为最高,0 为最低)。
Avg. Resp. Time 应用的平均响应时间,即应用中所有事务持续时长的平均值。
Req. Throughput 每分钟接收的请求数。
Req. Count 所选时间范围内收到的请求总数。
Errors (%) 发生错误的百分比。
数据吞吐量 请求和响应对象的大小将被追踪并显示在数据吞吐量中。请求大小记录为 Bytes In,响应大小记录为 Bytes Out
Exceptions 发生的严重异常和警告的总数。
Agent last communicated 代理最近一次通信的时间戳。
注意

您可以在界面中向下滚动,查看上述每项指标的图形展示。

事件时间线

事件时间线小部件记录所选应用/实例在选定时间范围内的所有事件。您可以识别过去的各种事件,包括宕机严重故障维护异常暂停。每个事件都以颜色编码,便于识别。可以深入挖掘事件以提取最大数据量,从而便于故障排除。

按组件细分的应用服务器响应时间

由于您的应用连接了多个组件,若应用出现响应缓慢,可能是其中某个组件无法正常运行或响应时间过长所致。

若您在图表中发现突然的峰值,可将鼠标悬停在其上,以确定是哪个组件造成了延迟。图表采用颜色编码,以便清晰易读。

异常数

此图表显示应用抛出的异常数量,分为警告严重异常两类。第 95 百分位值表示异常出现频次的典型上限。将鼠标悬停在图表上,可查看特定时间戳的数量。

错误数

此图表显示所选时间范围内记录的应用错误总数。 

异常细分

此图表显示在所选时间段内您的应用抛出的异常类型。柱状图中每种颜色代表不同的异常类型(例如,System.RuntimeTypeSystem.Net.WebException 等)。

HTTP 错误率

HTTP 错误率是指返回 4xx 或 5xx 状态码的 HTTP 请求百分比,用于衡量特定时间范围内应用或服务的可靠性及用户体验质量。

此图表显示您的应用随时间变化的 HTTP 错误百分比。

  • 折线图帮助您直观了解 HTTP 错误率的波动情况。
  • 汇总指标(如最小值最大值第 95 百分位)帮助您了解错误率的严重程度和分布范围。

RUM 相关指标

仅当您的应用与 RUM 监视器关联时,才能查看这些图表中的数据。

如果您希望将 RUM 监视器与您的 APM 监视器关联:

  1. 单击应用/实例下拉菜单附近的汉堡图标 Hamburger icon
  2. 选择启用 Web RUM
  3. 选择适合的 RUM 应用。
  4. 单击保存

浏览器响应时间

此图表提供了影响 Web 应用整体响应时间的各组件细分。该细分通常包括重定向时间DNS 时间连接时间服务器时间首字节时间文档下载时间页面渲染时间文档渲染时间

浏览器组件细分

此小部件显示影响 Web 应用整体响应时间的不同组件细分,包括重定向时间DNS 时间连接时间服务器时间首字节时间文档下载时间页面渲染时间文档渲染时间

前五条追踪和事务

继续向下滚动,您可以获取按平均响应时间排列的前五条事务列表、前五条慢追踪列表、最近五条异常列表,以及最近五条错误事务列表。

应用的最近事件

显示所选应用/实例在选定时间范围内的所有事件。

实例数

将鼠标悬停在所需时间上,可查看处于不同状态(如 UPDOWNCRITICALTROUBLESUSPEND)的实例细分。

事务

在此,您可以查看应用中所有事务的列表。

  参数     描述
Transaction 事务名称。
Apdex 衡量用户对应用性能满意度的数值指标,1 为最高,0 为最低。
Count 特定事务被用户调用的次数。
Errors (%) 特定事务中发生错误的百分比。
Error Count 特定事务中发生的错误总数。
Avg. Resp. Time 特定事务响应用户请求所需的平均时间。
Min Resp Time 事务的最小响应时间。
Max Resp Time 事务的最大响应时间。
Total Resp Time 事务的总响应时间。
Avg. CPU Time CPU 响应所需的平均时间。
Fatal 特定事务中发生的严重错误数量。
Avg. Bytes In 平均接收请求数,请求大小以 Bytes In 衡量。
Min Bytes In 事务期间接收的最小数据量,以字节为单位。
Max Bytes In 事务期间接收的最大数据量,以字节为单位。
Total Bytes In 接收响应的总数,响应大小以 Bytes In 衡量。
Avg. Bytes Out  平均发送响应数,响应大小以 Bytes Out 衡量。
Min Bytes Out 事务期间传输的最小数据量,以字节为单位。
Max Bytes Out 事务期间传输的最大数据量,以字节为单位。
Total Bytes Out 发送响应的总数,响应大小以 Bytes Out 衡量。
注意
  • 单击导出为 CSV,可导出事务报表。
  • 单击配置关键事务,可将所需事务添加为关键事务

事务类型

事务分类后显示在四个不同选项卡下。

  • 关键:
    此选项卡显示关键事务列表。
  • Web:
    此选项卡显示应用中所有 Web 事务的列表。
  • 后台:
    此选项卡显示后台事务列表。
  • 错误:
    此选项卡显示包含错误的事务。

视图

您可以以两种不同视图查看指标:表格视图图形视图。默认显示表格视图

数据库

本部分提供应用执行的 SQL 查询总数的完整说明。

  参数   描述
Database Operation 执行的数据库操作名称。
Count 在所选时间范围内,特定数据库操作在应用中执行的次数。
Errors (%) 特定数据库操作中发生错误的百分比。
Avg. Resp. Time 特定数据库操作完成所需的平均时间。
Min Resp Time 数据库操作完成所需的最短时间。
Max Resp Time 数据库操作完成所需的最长时间。
Total Resp Time 数据库操作的总响应时间。

视图

您可以以两种不同视图查看指标:表格视图图形视图。默认显示表格视图

排序

您可以使用排序依据选项,按以下值对记录进行排列:Avg. Resp. TimeCountErrors (%)Total Resp. Time

搜索

您还可以使用搜索数据库调用框直接搜索数据库操作,如图所示。

导出数据

您也可以使用导出为 CSV 选项导出数据库报表。

追踪

什么是追踪?
当事务超过指定阈值时,系统会将其捕获为追踪记录。

本部分提供已为该应用捕获的所有追踪列表。

  参数   描述
Transaction 捕获追踪的事务名称。
Resp. Time 事务完成执行所需的时间。
CPU Time CPU 处理该事务所花费的时间。
External Calls 执行期间进行的外部远程调用次数。
Exception Count 发生的异常总数。
SQL Time SQL 查询完成所需的时间。
Avg. Resp. Time 特定追踪响应用户请求所需的平均时间。
Total Bytes In 请求带入的数据量。
Total Bytes Out 作为响应发送的数据量。
Memory Used 事务使用的内存量。
Distributed Calls Count 特定追踪对其他分布式应用进行调用的次数。
Instance 映射的实例。

追踪类型

追踪分类后显示在三个不同选项卡下。

全部 此选项卡显示所有追踪的列表。
错误 此选项卡显示包含错误的追踪列表。
分布式 此选项卡显示分布式追踪列表。

筛选与高级筛选

Site24x7 使用筛选高级筛选选项,根据多个搜索条件识别追踪记录。您可以对筛选后的追踪记录执行所需操作。可将筛选器应用于以下三个类别中的任意一个:

筛选:

您可以从筛选下拉菜单中选择任意追踪指标,并在提供的大于框中指定阈值,从而快速搜索。

示例:如果从筛选下拉菜单中选择响应时间,并在大于框中设置阈值为三秒,则将显示响应时间超过三秒的所有追踪记录。

高级筛选:

高级筛选选项内置 AND 条件,允许您指定无限数量的搜索条件。筛选过程中将执行 AND 条件,即仅显示符合所有这些条件的追踪记录。

您可以单击添加筛选器选项,选择所需字段类型(如事务名称异常类组件名称或其他筛选器)及字段值。字段值将根据所选字段类型列出。

您可以逐一添加多个筛选器。每个添加的筛选器都将视为 AND 条件

例如,在下图中,搜索条件包含三个条件——事务名称为 zylker/settings/、异常为 java.lang.NullPointerException、响应时间超过两秒。

您可以单击 Hamburger icon 图标,查看该特定事务的性能。

直接单击所需追踪记录,可查看其完整情况。

单击追踪记录可查看其完整详情。在那里,您可以通过访问以下选项卡探索各种参数和指标:

摘要

提供所选追踪的整体摘要。

最慢方法调用

  参数   描述
最慢方法调用 最慢组件的名称。
Count 该组件被调用的次数。
Duration 该组件执行所用时间占追踪总执行时间的比例。
Percentage (%) 执行该组件所花费时间占总时间的百分比。

未插桩代码块:

通常,APM Insight 代理会捕获应用中已知框架和方法。事务中涉及的组件(包括其方法调用和函数)将列在追踪选项卡下。

在检查事务追踪时,您可能会遇到名为未插桩代码块的字段。

以下两种情况下您可能会看到此消息:

  1. 当您在应用代码中使用了自定义方法或函数时。
  2. 即使在已知框架中,代理也可能无法追踪在两个已插桩方法或函数之间调用的所有方法或函数。在这种情况下,该特定方法或函数将被标记为未插桩代码块。这有助于您确定特定方法的确切出现位置。通过了解时间戳和出现实例,您可以部署自定义插桩来排查问题。

外部调用

  参数   描述
外部调用 追踪执行期间进行的外部调用。
Total Time 外部调用完成所需的总时间。
Total Count 特定调用被执行的次数。

追踪详情

此选项卡允许您深入了解追踪中涉及的所有实体,以识别导致延迟的异常 span。它捕获异常、外部调用、数据库查询等信息。

标头

显示追踪的总持续时间和追踪中 span 的总数。您可以从筛选下拉菜单中选择任意追踪类型(如 APPCODE、MYSQL、WEBREQUEST、HANDLED_EXCEPTIONS 和 ALL),进行快速搜索。

注意

您还可以使用按 span 名称搜索框按名称搜索 span,如下方截图所示。

小地图

提供追踪时间线的精简视图。您可以在地图上单击并拖动鼠标,筛选该时间范围内的 span。筛选后的 span 将列在主时间线中。如需选择不同的时间范围,请单击重置,然后重新选择。

注意

包含超过 1,500 个 span 的追踪不会生成小地图。

时间线

显示追踪中的 span 列表。您也可以展开或折叠 span 以查看子 span。

下方截图显示了已展开的 span。

注意
  • 时间线条形图根据 span 类型进行颜色编码。
  • 默认情况下,所有 span 均已展开,但持续时间少于追踪总持续时间 30% 的 span 除外。
  • 包含异常的 span 以红色高亮显示。

SQL 语句

追踪执行的所有 SQL 查询的相关信息。

  参数   描述
Timestamp (second) 追踪执行 SQL 查询的时间。
Execution time (ms) 查询自身完成所需的时间。
Query 执行的查询名称。
No. of Queries 执行的查询总数。

远程(外部)调用

列出追踪执行期间进行的所有外部远程调用。所有外部调用均被识别,并按两个分类列出:全部MYSQL

信息

如需了解更多关于外部调用追踪的信息,请参阅我们关于追踪外部调用的博客

JVM 指标

注意

此选项卡仅对 Java 应用可见。

对于 Java 应用,您可以导航至追踪 > JVM 指标,查看追踪开始时间前后重要 JVM 指标(如 JVM CPU 使用率JVM 类数量堆内存非堆内存)的图形视图。图表上的红色标记表示追踪的开始时间。用户可通过比较事务执行期间的关键指标获取故障排除信息。


NodeVM 指标

注意

此选项卡仅对 Node.js 应用可见。

对于 Node.js 应用,您可以导航至追踪 > NodeVM 指标,查看追踪开始时间前后 CPU 指标、垃圾回收数据和事件循环数据的图形视图。图表上的红色标记表示追踪的开始时间。用户可通过比较追踪前后的关键指标获取故障排除信息。

服务器指标

注意

此选项卡仅在您有映射到实例的服务器监视器时可见。

导航至追踪 > 服务器指标,查看追踪开始时间前后服务器重要指标的图形视图。图表上的红色标记表示追踪的开始时间。这有助于用户了解对应服务器在指定时间的状态。

JVM(仅适用于 Java 代理用户)

此选项卡仅对 Java 应用可见。它提供对运行时数据、CPU 使用率、内存分布、垃圾回收和线程活动的洞察,可用于监控应用健康状况并排查性能问题。了解更多

IIS(仅适用于 .NET 代理用户):

此选项卡仅在您已在 IIS 监控控制台中启用 APM Insight 且使用 .NET 代理时才可用。如需了解更多关于在 IIS 监控中启用 APM Insight 的信息,请参阅我们关于同一主题的博客。通过访问以下选项卡,可获取各种参数和指标:

  • 摘要
  • 应用程序池

IIS - 摘要:

提供 IIS 服务器及访问该服务器的应用的整体视图。

IIS - 应用程序池:

IIS 服务器上运行的所有应用程序池的相关信息。

Node VM

Node VM 选项卡仅在您使用 Node.js 代理时可用。Node.js 代理使用 Node VM(一种原生 node 插件),从 Google Chrome V8 收集关键指标数据。代理收集 CPU 指标,通常与垃圾回收(GC)指标一起分析。这些指标有助于您提升应用性能。

异常

此选项卡显示所有已发生异常类型的描述,以及每种类型发生的次数。

服务地图

服务地图选项卡为您提供应用基础设施及其依赖关系的全面视图。它提供对应用和依赖项性能及健康状况各方面的宝贵洞察。以下是它能为您带来的价值:

  • 应用概述:清晰展示您的整个应用基础设施,突出显示不同组件之间的连接方式及相互交互方式。
  • 实时状态:通过检查每个节点的状态,了解应用、实例和关联服务器的健康状况:绿色表示健康,红色表示不健康。
  • 关键指标:获取每个节点的关键指标,如 IP、平均响应时间、总请求数、失败请求数、错误数、错误率和吞吐量。
  • 失败请求计数:统计失败请求数,以快速识别和解决导致这些失败的问题,从而维持应用的可靠性和稳定性。

此选项卡帮助您了解架构并识别潜在瓶颈或故障点,让您能在客户受到影响之前排查应用问题。

视图

您可以以三种不同视图查看指标:地图视图图形视图表格视图。默认显示地图视图

告警日志

告警日志选项卡帮助您分析在所选时间范围内针对所选 APM 应用触发的所有告警。它提供带时间戳的详细告警活动视图,让您了解应用出了什么问题、何时发生以及如何触发的。

为高效浏览大量告警数据,您可以应用基于查询的筛选器。根据告警类型、状态或中断 ID 等参数输入查询,以缩小结果范围。应用查询后,仅显示符合条件的告警日志。

每条日志条目显示以下关键信息:

  • 告警时间
  • 监视器类型
  • 状态
  • 告警类型
  • 原因
  • 告警模式
注意

告警日志选项卡在对比视图里程碑视图中不可用。

应用参数

注意

此选项卡仅对 Java 和 .NET 应用可见。

应用参数选项卡允许您创建、监控和分析与应用性能相关的自定义参数。

查看已创建的参数

在左侧,您可以看到已为您的应用创建的应用参数列表。每个参数包含:

  • 名称:您为该参数提供的名称
  • 类型:参数类型,例如求和或平均值

您可以直接单击要查看的参数,将显示与该参数相关的详细信息和图形展示。

保存自定义视图

  1. 您可以通过选择参数来创建自定义视图。
  2. 配置好视图后,输入视图名称并单击保存视图按钮,即可保存以备将来参考。

保存后,该视图将添加到左侧窗格的视图下。

注意

您也可以从左侧窗格选择任意视图进行更新或删除。

线程分析

注意

 此选项卡仅对 Java 和 .NET 应用可见。

线程分析选项卡允许您收集和分析线程转储。通过分析这些转储,您可以识别卡住、等待或占用大量 CPU 的线程。

信息

查看线程转储分析功能,深入了解线程分析。

里程碑

通常,您可以标记里程碑,以审查功能更新、问题修复、性能增强等前后的应用性能。您可以在里程碑选项卡下查看所有已创建的里程碑。此处列出了在所选时间段内为相应应用创建的里程碑。

注意

此处仅显示在监视器级别创建的里程碑,而在群组和全局级别创建的里程碑可在管理选项卡上查看。了解更多


单击特定里程碑,即可显示所选时间段前后您应用的指标。 

以下指标可通过里程碑标记进行比较:

  • Apdex 评分
  • 平均响应时间
  • 请求吞吐量
  • 请求数
  • 数据吞吐量
  • 错误率 (%)
  • 异常数

例如,通过单击 buildupdate 里程碑,您可以查看三小时时间段前后应用的性能。

RUM 分析

这是一个界面选项卡,显示 Site24x7 APM Insight RUM 代理收集的所有重要数据。

注意

您可以通过自动 RUM 注入功能,轻松在您的 Java 和 PHP 应用中启用 RUM。

服务器指标选项卡

通常,您可以查看映射到应用实例的所有服务器监视器的完整列表。您也可以分别在实例级别和应用级别查看服务器指标。了解更多

应用级别指标

如果从左上菜单中选择应用名称,您将获得与应用关联的服务器监视器完整列表。

单击服务器监视器可查看性能指标的完整情况。

实例级别指标

如果从左上菜单中选择实例名称,您将获得关联服务器所有主要性能指标的详细视图。

中断

提供所选应用/实例的宕机、故障、严重历史摘要,包含开始时间至结束时间、持续时间、原因和备注等信息。

  参数   描述
Start Time to End Time 检测到的中断的开始和结束时间
Duration 检测到的中断的持续时间
Reason 检测到的中断原因,便于快速故障排除
Comments 用户添加的备注,供参考

查看告警日志

单击查看告警日志链接,您将被重定向到告警日志选项卡,在那里可以查看特定中断期间为您的 APM 应用生成的所有告警。

您可以单击 中断 - 汉堡图标选项 图标,将中断标记为维护、编辑备注,或删除无关中断记录。

标记为维护

您可以使用标记为维护选项,将特定中断时段标记为维护。将中断标记为维护后,状态图标变为维护状态,记录仍可在中断选项卡下查看。如有需要,可将维护状态恢复为中断。

数据采集统计

您可以通过单击汉堡图标并选择数据采集统计选项,获取特定中断的详细数据报表。

编辑备注

在任何检测到的中断期间,Site24x7 会在原因部分自动填写中断原因。无论用户角色如何,任何人都可以使用编辑备注选项编辑/删除这些系统生成的备注。

删除

您可以使用删除选项删除任何不相关的中断或维护记录。

注意
  • 如有需要,您也可以使用添加中断按钮手动添加中断记录。
  • 您可以使用下载 CSV 按钮导出显示的中断报表。

数据采集统计选项卡

数据采集统计选项卡提供所选应用或实例在所选时间段内的详细数据报表。数据报表将保留最近 30 天的数据。

注意

请手动刷新页面以查看最新轮询的数据报表。

  参数   描述
Status 监视器的状态,如正常宕机故障严重
Apdex 用户满意度指标,1 为最高,0 为最低
Average Response Time (ms) 响应用户请求所需的平均时间
Count 成功响应的请求数
Error Count 发生的错误总数
Fatal Exception Count  发生的严重异常总数
Throughput (rpm)  每分钟接收的请求数
Error Rate (%)  发生错误的百分比
JVM CPU usage (%)  Java 虚拟机(JVM)的 CPU 使用率百分比
Heap Memory Usage (%)  JVM 使用的堆内存百分比
GC Count  发生全局垃圾回收的次数
GC Time (ms) 执行垃圾回收所需的时间

实例分析选项卡

通常,您可以查看应用中所有实例的完整列表,以及与之关联的指标。

注意

单击单个实例时,您将跳转至相应的实例详情页面。

  参数   描述   适用于
Apdex Score 衡量用户满意度的数值指标,1 表示最高,0 表示最低。 Java, .NET, Node.js, PHP, Ruby, Python
Satisfied (count) 被标记为满意的事务数量。

注意

若任何事务响应时间低于 Apdex 阈值,则该事务被标记为满意

Java, .NET, Node.js, PHP, Ruby, Python
Tolerating (count)

被标记为可接受的事务数量。

注意

若任何事务响应时间恰好等于 Apdex 阈值,或介于满意不满意阈值之间,则被标记为可接受

Java, .NET, Node.js, PHP, Ruby, Python
Frustrated (count)

被标记为不满意的事务数量。

注意

若任何事务响应时间超过 Apdex 阈值四倍,则该事务被标记为不满意

Java, .NET, Node.js, PHP, Ruby, Python
Resp.Time (ms) 实例响应用户请求所需的平均时间。 Java, .NET, Node.js, PHP, Ruby, Python
Throughput (rpm) 每分钟接收的请求数。 Java, .NET, Node.js, PHP, Ruby, Python
Req.Count 接收的请求总数。 Java, .NET, Node.js, PHP, Ruby, Python
Errors (%) 发生错误的百分比。 Java, .NET, Node.js, PHP, Ruby, Python
Status 实例的状态,如正常、宕机、故障或严重。 Java, .NET, Node.js, PHP, Ruby, Python
Host 实例的主机名。 .NET
IP

实例的 IP 地址。

注意

将鼠标悬停在该值上将显示完整的 IP 列表。

Java, .NET
注意

单击此汉堡图标(Hamburger icon)并选择导出为 PDF,即可导出实例指标报表。

本文档对您有帮助吗?

您愿意帮助我们改进文档吗?请告诉我们哪些方面可以做得更好。


很抱歉本文档未能让您满意。我们希望了解可以从哪些方面改进您的体验。


感谢您抽出时间分享反馈。我们将利用您的反馈来改进在线帮助资源。

短链接已复制!