帮助手册 服务器指标 Linux 服务器监控的性能指标

Linux 服务器监控的性能指标

从统一的仪表板监控和监测 Linux 服务器的 CPU、内存、磁盘利用率、进程和网络流量等关键指标。成功安装 Linux 代理后,登录到 Site24x7 Web 客户端并导航到服务器>服务器监视器>服务器> 单击新添加的监视器以查看其性能指标。

Linux 代理使用 WMI 查询将数据发送到 Site24x7 数据中心。由于代理必须下载并安装在您的服务器中,因此请详细了解代理的安全性。 

概括

在单个控制台中查看 Linux 服务器性能的所有重要参数。热点图分析可让您快速总结过去 7 天内服务器的状态和性能。 

单击该图标 可查看性能报表,了解包括 CPU、内存、磁盘利用率等在内的指标。您还可以通过从页面右上角的下拉列表中选择适当的时间段来查看特定时间段的性能数据。您可以将性能详细信息导出为 CSV/PDF 或通过电子邮件发送。

平均负载

平均负载是一段时间内的平均系统负载。平均负载数据可以让您了解您的物理 CPU 是否被过度使用或使用不足。在过载的情况下,您可以检查任何浪费资源的进程、提供更多硬件资源或将一些工作负载转移到另一个系统。

CPU 利用率

定期监控 CPU 使用情况对于分析规定时间段内的 CPU 负载和克服性能下降至关重要。

然而,并不是所有的高 CPU 使用率都是关键的。事实证明,基于时间段查看报表的功能有助于确定真正故障的 CPU 使用率。这将帮助您深入了解导致 CPU 峰值的实际原因。根据分析,您可以提出解决方案,例如升级 CPU 硬件、添加更多 CPU 或关闭占用这些关键资源的琐碎服务。

CPU 利用率是使用“top”命令计算的。了解更多

CPU 利用率 = 100 - 空闲时间

此外, 通过将鼠标悬停在CPU 利用率 图 中的特定点上 ,查看特定时间点消耗 CPU 的前五个进程使用 Python 模块“ psutil”计算顶部进程数据。

通过单击标题旁边的图标可以访问 CPU 使用率的性能报表该报表包括:

  • CPU 利用率
  • 中断 - 处理器接收的平均硬件中断数。
  • 上下文切换 - 从一个线程切换到另一个线程的速率。线程切换可以发生在单个进程内部或跨进程。
  • CPU 指标 - 用户空间时间、硬件中断时间、空闲时间、软件中断时间、nice 时间、等待时间、窃取时间。 
  • 每分钟的平均 CPU 使用率 (%)。
导航到CPU选项卡以查看更多指标。

内存利用率

监视内存使用情况可帮助您识别未使用的服务器并有效地重新分配负载。这有助于在服务器过载导致停机或数据丢失之前检测到它们。

使用“free”命令计算内存使用量。了解更多

已用内存 = ( ( 总 - 空闲 ) / 总 * 100 )

此外, 通过将鼠标悬停在内存利用率 图表 中的特定点上 ,查看在特定时间点消耗内存的前五个进程使用 Python 模块“ psutil”计算顶部进程数据。

单击标题旁边的图标可以访问内存使用的性能报表该报表包括:

  • 交换内存利用率
  • 使用的内存
  • 内存分解为空闲物理内存和空闲交换内存。
  • Memory Pages In - 从磁盘读取以解决硬页错误的页数。
  • 内存页输出 - 写入磁盘以释放物理内存空间的页数。
  • 内存页面错误(每秒) - 当进程需要不在其工作集中(物理内存中的空间)的代码或数据时,会发生页面错误。了解如何计算此指标并在 Site24x7 Web 客户端中显示。
  • 每分钟的平均内存使用率 (%)。
导航到内存选项卡以查看更多指标。

内存分解

拆分服务器中可用的可用物理内存和可用交换内存。较少使用的文件可以移动到交换空间,直到需要它们,并且可以将新文件交换到 RAM。这有助于更好地规划和分配资源,以避免服务器过载和数据丢失。

导航到内存选项卡以查看更多指标。

容量计划的磁盘使用情况

根据您当前的磁盘使用情况,了解 7 天后您的磁盘使用情况。如果磁盘使用率和预测值不规则或突然出现峰值,则意味着使用中存在一些性能下降问题,需要采取明确的措施。转到磁盘选项卡并检查每个分区的磁盘利用率并在问题影响服务器的整体性能之前解决问题。 


导航到磁盘选项卡以查看更多指标。

最近发生的事件

了解服务器中的最新事件,分类为警告、错误和信息。每次轮询后都会刷新数据,这有助于了解错误/警告事件数量的任何异常增加并立即采取行动。


CPU 和内存排名靠前的进程

根据服务器中的 CPU 或内存使用情况查看排名靠前的进程列表。使用切换按钮在 CPU 和内存使用情况之间进行选择。

app详情

您已安装的 docker 或插件等应用程序将与它们各自的监视器显示名称一起列出。单击监视器名称以转到相应监视器的摘要页面。  

停机/故障历史

您的服务器的停机和故障状态的完整历史记录与停机/故障期间的持续时间、中断原因和 根本原因分析(RCA) 详细信息一起列出。

进程

监控 Linux 服务器上运行的进程。如果您无法找到 Linux 服务器上正在运行的进程,请使用“发现进程”选项手动添加它们。 

了解更多关于进程监控的指标和可以执行的管理动作。可以使用动作下的铅笔图标设置每个进程的单独阈值。了解更多

CPU

获取有关服务器 CPU 利用率的完整数据。 

指标名称 描述
用户时间  用于用户进程的 CPU 百分比 
硬件中断时间  CPU 服务硬件中断的百分比 
空闲时间  处于空闲状态的 CPU 百分比 
软件中断时间  CPU 服务软件中断的百分比
Nice Time  CPU 处理低优先级进程的百分比 
等待时间  等待 I/O 操作的 CPU 百分比 
steal时间  Hypervisor 主机在其他虚拟机上使用它所窃取的时间
系统时间  用于系统进程的 CPU 百分比 
中断和上下文切换 处理器接收的平均硬件中断数以及从一个线程切换到另一个线程的速率 
CPU 利用率 所有中央处理单元或核心的 CPU 利用率。

内存

获取有关服务器内存利用率的完整数据。

指标名称 描述
交换内存利用率  服务器中可用的总交换空间(百分比) 
使用的内存  服务器使用的总内存(以字节为单位) 
内存分解  空闲物理内存和空闲交换内存的分离 
内存页(输入/输出/故障) 分别从磁盘读取、写入磁盘的页数,以及缺页数

每秒的指标内存页面错误 是使用以下命令从 proc 系统计算的:

cat /proc/vmstat

要交叉检查 Site24x7 Web 客户端中显示的值,请在终端中执行以下命令。自服务器启动以来,它将给出页面错误值。这在 Site24x7 Web 客户端中显示为每秒值。

cat /proc/vmstat | grep -i 'pgpgin\|pgpgout\|pgfault'

磁盘

密切监视磁盘使用情况,并定期检查服务器中磁盘空间的可用性。查看 服务器磁盘分区报表 以查看您帐户中服务器的已用和可用磁盘空间。

指标名称 描述
磁盘分区详细信息和使用情况预测 已用和可用磁盘空间的表格视图(以 MB 和百分比为单位)。单击这些值可转到每个分区的详细性能报表。单击操作下的铅笔图标为每个分区设置阈值。您还可以使用铅笔图标选择跳过任何分区的告警。 
平均磁盘利用率 (%) 服务器中可用的可用磁盘空间和已用磁盘空间(百分比)
磁盘 (I/O) 在磁盘中执行的读写操作 
分区磁盘 I/O 每个分区执行的读写操作
整体磁盘利用率 总磁盘使用量和可用空间(以 GB 为单位)
当前单个磁盘利用率 (%) 单个磁盘分区的最近(最后轮询)利用率
磁盘空闲和忙碌百分比 了解您使用了多少磁盘以避免过载。如果空闲时间很长,那么它指的是过载,并且服务器中的资源分配没有最佳完成。 
注意:Linux 监控代理使用实用程序iostat来捕获磁盘空闲和忙碌百分比。请确保iostat实用程序已安装在您的服务器中。如果没有,将其安装在服务器中并重新启动监控代理服务。 

磁盘分区详情 & 使用情况预测下,单击重新发现按钮以发现磁盘分区并将其添加以进行监控。单击批量操作按钮 以一次性设置多个磁盘分区的阈值。 

如果您希望为特定分区指定阈值,请单击动作下分区名称旁边的铅笔图标。可以为条件 >、<、=、>=、<= 以及以字节、KB、MB、GB 和 TB 为单位为单个分区设置多个阈值。您可以选择在检测到违规时获取故障或危急告警。

详细了解当磁盘利用率阈值超出其配置值时告警如何工作。 

网络

为您的 Linux 服务器提供了以下网络统计信息:

  • 网络接口卡的名称。在网络接口详情下获取 MAC 地址、IPv4 和 IPv6 地址等详细信息。  
  • 输入和输出流量 - 从互联网或注意本电脑/PC 进入接口的流量称为流入流量。如果流量从接口流出到互联网或注意本电脑/PC,则称为输出流量。
  • 带宽(以 Kbps 为单位)- 了解您的站点、用户和 Internet 之间传输的流量级别和数据量。
  • 发送的数据和接收的数据(以 KBps 为单位)
  • 发送的数据包和接收的数据包
  • 错误包
  • 单击网络下的单个指标(如输入或输出流量)以获取性能数据的图形表示。您可以使用动作下的铅笔图标为条件 >、<、=、>=、<= 为网络接口设置单独的阈值。 

    使用批量动作按钮一次性设置多个网络接口的阈值。单击“重新发现”按钮以发现网络接口并将其添加以进行监控。如果您想获得跨服务器的关键网络适配器的综合报表,请查看网络适配器报表。 

    将为每个唯一的 MAC 地址添加一个网络接口/适配器。如果多个接口具有相同的 MAC 地址,则只添加一个接口,其余的将被忽略。 

    插件

    使用 Site24x7 的插件集成定制和监控专门针对您的需求量身定制的数据。使用我们准备安装的50 多个插件集成或使用 Python 或 Shell 脚本编写您自己的插件

    参数 描述
    插件名称 插件监视器的名称
    状态 告诉你插件是处于正常还是停机状态
    版本 这是一个必填字段,表示插件的版本号。如果用户想要添加/修改/删除属性,则需要更改插件版本以创建新模板。 知道在什么情况下需要更改插件版本
    模板名称 具有要监视的属性列表的插件模板的名称。知道如何配置模板
    属性 该插件下列出的属性总数 
    性能属性 在设置插件模板时,决定必须在主摘要页面、日志报表和主插件监视器列表页面中列出哪个属性。了解更多
    动作 您可以编辑或删除插件监视器

    根据您服务器上运行的进程,代理将选择相关插件并将其列在推荐插件下,以便轻松将插件监视器添加到您的帐户。 

    检查

    监控 Linux 服务器上的文件、目录、URL、端口和系统日志等内部资源。单击创建/编辑资源检查配置文件以创建/编辑资源检查。您还可以转到 Site24x7 Web 客户端中的“管理”选项卡,然后单击“服务器监视器” > “资源检查配置文件”以添加用于监视的资源。支持以下内部资源进行监控:

  • 文件和目录监控
  • 访问检查
  • 权限检查
  • 大小检查
  • 最后修改检查 (仅适用于文件)
  • 内容检查 (仅适用于文件)
  • 子目录可用性 (仅适用于目录)
  • 文件可用性 (仅适用于目录)
  • URL端口监控
  • 系统日志监控
  • 了解更多

    系统日志

    以图形格式获取大量数据,详细说明停机时间、性能下降和安全违规情况。有关记录程序消息和进程严重性的详细指标可以从 Syslogs 图表中推断出来。 

    用户还可以检查特定关键字及其在系统日志中的出现。日志可以按 ID 和来源进行过滤,以便在发生意外行为时立即得到通知。

     

    工具

    使用Server Tools在一处轻松管理各种操作并执行任务。您还可以通过转到服务器>服务器监视器>服务器工具> 从下拉列表中选择您的 Linux 服务器来访问此页面。

    一、进程查看器

    获取 Linux 服务器上运行的所有活动进程的完整列表,包括它们的 CPU (%) 使用率、内存 (%) 使用率、句柄数、线程数和实例。您可以在顶部的搜索栏中搜索任何特定进程(在下面的屏幕截图中以红色突出显示)。您可以使用进程名称旁边的+添加选项添加要监控的进程(在下面的屏幕截图中以蓝色突出显示)。

     

    添加自定义选项卡

    创建您自己的选项卡并监控您需要的性能指标。

    添加自定义视图的步骤: 

  • 单击添加自定义选项卡按钮。
  • 提供显示名称以进行识别。
  • 选择您希望在此视图下查看和监控的指标。
  • 保存您的更改。
  • 单击更多> 单击您创建的自定义仪表板。
  • 您可以通过编辑自定义视图来编辑显示名称或删除自定义视图

    根本原因分析 (RCA)

    每次检测到停机时,都会触发根本原因分析 (RCA) 报表,并根据告警联系人和媒介将其发送给用户。为 Linux 服务器监视器生成的RCA提供了停机背后的实际原因,以及用于诊断连接问题的跟踪路由图。

    性能报表

    登录到 Site24x7 并转到报表>服务器监控以访问 Linux 监控的性能报表。除了适用于 Site24x7 中所有监视器类型的通用报表外,服务器监视还有一些关于磁盘使用情况、网络适配器详细信息、代理清单以及 CPU、内存和磁盘的前 n 个报表的独家报表。了解更多。  

    服务器清单和健康状况仪表板

    使用我们直观的仪表板全面了解您的整个服务器环境。

  • 资源清单仪表板 - 显示所有服务器、应用程序、资源检查、插件等的计数。
  • 健康状况仪表板- 了解您帐户中所有服务器、插件和应用程序的当前计数和状态。
  • 许可

    了解您获得的单个 Linux 服务器监视器的指标。了解更多

    相关文章:

  • 添加 Linux 服务器监视器
  • 批量安装:Chef | 木偶盐堆 | 稳定 | 使用 SSH 远程安装
  • 服务和进程监控 
  • 50 多个开箱即用的插件集成
  • 服务器监控代理架构
  • 支持的其他操作系统平台: 
  • 帮助手册 服务器指标 Linux Server 监控性能指标