自动化服务器重启
自动化重启服务器,并可附带任意特定参数(如有需要),以确保服务器持续稳定运行。
使用场景:
假设一个电商应用正通过 Site24x7 的服务和进程监控功能进行监控。某个服务突然停止响应,经分析发现该服务的内存使用率已超过 90%。
问题描述:
在生产环境中手动重启所有服务器既繁琐又几乎不可行,整个过程也非常耗时,往往在应用出现异常之前已经为时太晚。这可能影响其他应用服务,最终导致所有服务器受损。
解决方案:
IT 人员可以在阈值和可用性配置文件中配置策略选项,将进程内存使用率阈值设为大于 90%,轮询次数设为 3 次,并将其与服务器重启自动化操作关联。
配置完成后,如果发生阈值违规,在三次轮询后违规仍然存在,系统将执行服务器重启自动化操作。
提示:
在监控数百台服务器时,可以选择 $LOCALHOST 作为目标主机。这将确保自动化操作在任何发生阈值违规的服务器上执行。此设置仅适用于服务器监视器(基于代理)。
添加自动化
支持的版本:Windows 18.4.0 及以上 | Linux 16.6.0 及以上
- 登录 Site24x7,进入管理 > IT 自动化模板 (+)。您也可以通过服务器 > IT 自动化模板 (+) 进行导航。
- 将自动化类型选择为服务器重启。
- 填写显示名称以便识别。
- 选择执行服务器重启自动化的主机、标签或监视器组。
例如:在上述场景中,选择 $LOCALHOST,以在任何发生阈值违规的服务器上执行重启操作。此设置仅适用于服务器监视器(基于代理)。 - 输入超时时间(秒),表示代理等待执行完成的最长时间。超过该时间后将出现超时错误,如果设置为"是",错误信息将记录在邮件通知中。
注意
超时时间默认设置为 15 秒,您可以设置 1-90 秒之间的超时时间。
- 您可以选择将自动化结果发送至邮件,发送给通知配置文件中配置的用户组。默认设置为否。该邮件将包含自动化名称、自动化类型、事件原因、目标主机等参数。自动化结果仅在阈值突破或监视器状态发生变化时触发,测试运行不会生成自动化结果数据。
注意
如果在一次数据采集中执行了多个自动化操作,将发送一封汇总邮件。
- 保存更改。
添加自动化后,可安排这些自动化操作按顺序依次执行。
通知配置文件设置:
在通知配置文件中配置以下设置:
- 执行关联到监视器的 IT 自动化后,若仍为宕机/警告状态则发出通知:设置为"是"时,如果执行指定操作后监视器仍处于中断状态,您将立即收到宕机/警告状态的告警通知。
- 抑制依赖监视器的 IT 自动化:当依赖资源处于宕机状态时,不执行 IT 自动化操作。
测试自动化
添加自动化后,进入 IT 自动化摘要页面(服务器 > IT 自动化模板),使用
图标进行测试运行。了解更多。
测试运行将应用于所有选定的自动重启主机,但仅选择 $LOCALHOST 作为主机的情况除外。
点击IT 自动化日志,按日期查看已执行的自动化列表。
映射自动化
要执行自动化,需将其与目标事件进行映射。有两种方式可以实现:
相关文章
- Site24x7 IT 自动化入门
- 其他支持的自动化工具:服务器脚本 | Windows 服务 | 服务器命令 | Thread Dump/Heap Dump | 调用 URL/REST API | 标记为维护 | Hyper-V | IIS
- IT 自动化日志
- 服务器监控架构
- 添加服务器: Windows | Linux
- 支持的 Microsoft 应用程序
- 配置文件
