帮助手册

服务与进程监控

监控在您的 Windows 和 Linux 服务器上运行的重要服务和进程,以及在 .NET 平台上开发的 Windows 服务。观看快速视频了解如何添加服务和进程。

注意

从 agent 版本 22.1.00 及以上开始支持 Linux 服务监控。

视频

为何监控服务和进程?

仅监控 CPU、磁盘、内存使用情况不足以全面评估服务器健康状态。监控服务器上运行的每个服务和进程的性能,对于全面分析系统资源负载同样至关重要。 

阅读我们的博客,了解服务和进程监控的重要性。

Site24x7 如何进行进程和服务监控?

进程监控基于进程名称、路径和进程命令行参数进行。如果这些值发生变化,将被视为新进程。

注意:如果参数发生变化,您可以删除该进程,然后通过从服务器重新发现该进程并重新添加进行监控。

前提条件

  • 具备足够的授权。参阅此文章了解每个服务器监视器可以添加多少个进程/服务。
  • 确保该服务/进程存在于相应的服务器上,否则不会列在发现服务和进程窗口中。
  • 确保该服务/进程正在运行,只有处于活动状态的服务/进程才会被发现。

查看此文章了解服务/进程未能添加到 Site24x7 监控时的故障排除步骤。

添加服务和进程以进行监控

可以通过以下方式之一添加服务和进程:

  • 配置规则:创建配置规则,在添加 Windows/Linux 服务器监视器后自动应用。可以手动添加要监控的 Linux 进程/Windows 服务名称(添加进程/添加服务)。也可以将自动发现选项(自动发现服务、自动发现进程)设置为 True,agent 将自动将服务器上运行的服务/进程与我们的默认列表进行匹配,并自动添加进行监控。  
  • 手动添加:在服务和进程选项卡(Windows 和 agent 版本 22.1.00 及以上的 Linux)中点击发现服务和进程按钮,或在进程选项卡(agent 版本低于 22.1.00 的 Linux)中点击发现进程按钮。选择要监控的服务/进程并添加。

管理操作

服务和进程/进程选项卡中,点击操作下的汉堡图标,可执行启动、停止和删除操作。

用户权限:只有 Site24x7 超级管理员和 Site24x7 管理员才能执行这些操作。

  • 启动/停止服务:
    支持 Windows 和 agent 版本 22.1.00 及以上的 Linux。您也可以从服务器工具(仅 Windows)执行此操作。
    注意

    提示:使用 IT 自动化模板自动完成 Windows 服务的启动、停止和重启操作。   

  • 删除服务/进程:
    将服务/进程从监控中移除。这只会将其从监控中移除,不会从服务器上删除。
    注意

    删除服务/进程时,请确保服务器监视器处于正常运行状态。

  • 批量添加/删除特定服务/进程到其他服务器:
    使用添加到其他服务器监视器 或从其他服务器监视器删除按钮,分别将服务/进程添加到其他服务器监视器或从中删除。了解方法
    注意

    删除服务/进程时,请确保服务器监视器处于正常运行状态。

性能指标

参数 描述
状态 了解服务/进程是否正常运行或已宕机
CPU(%) 进程占用的 CPU 百分比
内存(%) 进程占用的内存百分比
实例数 特定实例出现的次数
线程数 进程中运行的线程数量 
句柄数 进程对象表中的对象句柄数量 
仅适用于 Linux 进程:
用户 启动该进程的用户角色
优先级 根据优先级值查看进程。Linux 的值范围为 -20 至 19,Windows 为 0 至 31。优先级值较高的进程将获得比低优先级进程更多的 CPU 时间。

注意:在 Windows 中,与特定服务关联的进程会被列出,该进程的 CPU 和内存使用情况显示在服务和进程下。 

指标如何计算?

进程的性能指标(CPU 和内存使用率)使用"ps"命令计算。

例如,要获取名为 'sshd' 的进程的 CPU 和内存百分比,请执行以下命令:

/bin/ps -eo pid,pri,fname,pcpu,pmem,nlwp,command,args | grep -i 'sshd' | grep -v grep

注意:第四个索引值(pcpu)代表进程 CPU,第五个索引值(pmem)代表进程内存

当服务器核心数超过 1 时,从"ps"命令获取的 CPU 值可能超过 100%。因此,进程的 CPU 百分比按每个核心计算,方式如下:

进程 CPU = (CPU 值)/(核心数量)

示例:如果从"ps"命令获取的进程 CPU 值在 8 核处理器上为 200,

进程 CPU = (200)/ 8

因此,进程 CPU = 25%

设置阈值

可以在以下位置设置阈值:

  • 针对单个服务/进程 - 在服务和进程/进程选项卡中,点击相应进程/服务旁操作下的汉堡 图标,为 CPU 使用率、内存使用率、实例数、线程数和句柄数设置阈值。  
  • 针对所有服务/进程(全局级别)- 将鼠标悬停在服务器名称旁的汉堡图标上并点击编辑。在编辑服务器监视器页面,点击阈值和可用性旁的铅笔图标。为包括 CPU 使用率、内存使用率、线程数和句柄数在内的指标定义阈值。 

根据阈值设置(单个和全局),将触发告警。 

告警

当服务/进程宕机时,如需收到告警,请在该特定服务/进程操作编辑阈值配置文件窗口中启用进程/服务宕机时通知选项。启用此选项时,可以选择告警类型为"异常"或"宕机"。此设置也可在该服务器监视器的阈值配置文件编辑阈值配置文件窗口中针对整个服务器监视器进行配置(编辑服务器监视器 > 阈值和可用性 > 铅笔图标)。

  • 如果在添加到 Site24x7 时服务/进程未处于活动/运行状态,则该服务/进程将以宕机状态添加。在这种情况下,不会触发告警。
  • 如果在添加时服务/进程处于活动/运行状态,则该服务/进程将以正常运行状态添加。在这种情况下,当监视器中的服务/进程后来宕机时,将触发宕机告警。
注意

提示:关联 IT 自动化模板,在两个阈值级别自动解决问题。如果您还没有 IT 自动化,请添加一个。 

在服务和进程监控中使用正则表达式(RegEx):

启用使用 RegEx 选项(进程/服务和进程选项卡 > 进程操作 > 汉堡 图标),借助正则表达式描述进程参数。这样,每次重启进程时,您无需删除并重新添加该进程。默认设置为

启用 RegEx 后,Linux/Windows 监控 agent 将把正在运行的进程/服务参数与配置的 RegEx 进行匹配,并确定进程/服务的状态。 阅读相关使用案例。

注意

对于 Windows,请确保 agent 版本为 19.5.0 及以上才能启用 RegEx。

性能报表

使用服务和进程报表查看 Site24x7 账户中两台或更多服务器的服务和进程。转至报表 > 服务器监视器 > 服务器 - 服务报表/服务器 - 进程报表。 

安全性

服务和进程基于服务/进程名称、路径和进程命令行参数进行监控。命令行参数和路径经过加密后存储在 Site24x7 中。阅读有关 agent 安全性的更多信息。

授权

了解每个服务器监视器可以监控多少服务和进程。如果您有关联的应用程序,授权情况会有所不同。阅读更多。 

使用 Top 进程图表进行故障排除

通过专属 Top 进程图表,深入了解消耗 CPU 和内存最多的前 5 个进程。

优势

为了分析趋势并识别服务器性能下降问题,Site24x7 以易于理解的报表和仪表板形式提供性能数据洞察。Top 进程图表呈现可能影响服务器健康状况和性能的前 5 个进程的全面视图,帮助您随时掌握中断情况。

该图表考虑过去一小时内服务器上运行的所有进程,包括未作为监视器添加的进程。借助此堆积条形图,您可以轻松识别和追踪 CPU 和内存使用率最高的进程。

工作原理

Site24x7 的服务器监控 agent 获取过去一小时内所有运行进程的 CPU 和内存使用值。根据所有进程使用值的平均值,使用率最高的前 5 个进程被确定为 Top 进程。

查看 Top 进程图表的步骤

要查看 Top 进程图表:

  1. 登录 Site24x7 并导航至左侧面板中的服务器选项卡。
  2. 服务器监视器下拉菜单中选择服务器
  3. 选择要分析前 5 个进程的服务器监视器
  4. 如果您使用的是 Windows 操作系统,或 agent 版本 22.1.00 及以上的 Linux 操作系统,请选择服务和进程选项卡。对于 agent 版本低于 22.1.00 的 Linux,请选择进程选项卡。

现在,您可以查看包含所有前 5 个进程数据的 Top 进程图表。您还可以使用图表上方的切换按钮,根据偏好在 CPU内存使用率之间切换。

 

本文档对您有帮助吗?

您愿意帮助我们改进文档吗?请告诉我们哪些方面可以做得更好。


很抱歉本文档未能让您满意。我们希望了解可以从哪些方面改进您的体验。


感谢您抽出时间分享反馈。我们将利用您的反馈来改进在线帮助资源。

短链接已复制!