帮助手册

自动化服务器重启

自动化重启服务器,并可附带任意特定参数(如有需要),以确保服务器持续稳定运行。

使用场景:

假设一个电商应用正通过 Site24x7 的服务和进程监控功能进行监控。某个服务突然停止响应,经分析发现该服务的内存使用率已超过 90%。

问题描述:

在生产环境中手动重启所有服务器既繁琐又几乎不可行,整个过程也非常耗时,往往在应用出现异常之前已经为时太晚。这可能影响其他应用服务,最终导致所有服务器受损。

解决方案:

IT 人员可以在阈值和可用性配置文件中配置策略选项,将进程内存使用率阈值设为大于 90%,轮询次数设为 3 次,并将其与服务器重启自动化操作关联。

配置完成后,如果发生阈值违规,在三次轮询后违规仍然存在,系统将执行服务器重启自动化操作。

提示:

在监控数百台服务器时,可以选择 $LOCALHOST 作为目标主机。这将确保自动化操作在任何发生阈值违规的服务器上执行。此设置仅适用于服务器监视器(基于代理)。

添加自动化

支持的版本:Windows 18.4.0 及以上 | Linux 16.6.0 及以上 

  1. 登录 Site24x7,进入管理 > IT 自动化模板 (+)。您也可以通过服务器 > IT 自动化模板 (+) 进行导航。 
  2. 自动化类型选择为服务器重启
  3. 填写显示名称以便识别。
  4. 选择执行服务器重启自动化的主机标签监视器组
    例如:在上述场景中,选择 $LOCALHOST,以在任何发生阈值违规的服务器上执行重启操作。此设置仅适用于服务器监视器(基于代理)。
  5. 输入超时时间(秒),表示代理等待执行完成的最长时间。超过该时间后将出现超时错误,如果设置为"是",错误信息将记录在邮件通知中。
    注意

    超时时间默认设置为 15 秒,您可以设置 1-90 秒之间的超时时间。

  6. 您可以选择将自动化结果发送至邮件,发送给通知配置文件中配置的用户组。默认设置为。该邮件将包含自动化名称、自动化类型、事件原因、目标主机等参数。自动化结果仅在阈值突破或监视器状态发生变化时触发,测试运行不会生成自动化结果数据。
    注意

    如果在一次数据采集中执行了多个自动化操作,将发送一封汇总邮件。

  7. 保存更改。
注意

添加自动化后,可安排这些自动化操作按顺序依次执行。

通知配置文件设置:

通知配置文件中配置以下设置:

  • 执行关联到监视器的 IT 自动化后,若仍为宕机/警告状态则发出通知:设置为"是"时,如果执行指定操作后监视器仍处于中断状态,您将立即收到宕机/警告状态的告警通知。 
  • 抑制依赖监视器的 IT 自动化:当依赖资源处于宕机状态时,不执行 IT 自动化操作。 

测试自动化

添加自动化后,进入 IT 自动化摘要页面(服务器 > IT 自动化模板),使用  图标进行测试运行。了解更多

注意

测试运行将应用于所有选定的自动重启主机,但仅选择 $LOCALHOST 作为主机的情况除外。

点击IT 自动化日志,按日期查看已执行的自动化列表。

映射自动化

要执行自动化,需将其与目标事件进行映射。有两种方式可以实现:

本文档对您有帮助吗?

您愿意帮助我们改进文档吗?请告诉我们哪些方面可以做得更好。


很抱歉本文档未能让您满意。我们希望了解可以从哪些方面改进您的体验。


感谢您抽出时间分享反馈。我们将利用您的反馈来改进在线帮助资源。

短链接已复制!