服务器监控最佳实践
遵循本页中推荐的最佳实践,主动识别和解决问题,从而确保服务器平稳、不间断地运行。
前提条件
在设置服务器监控之前,请确保满足以下前提条件:
- 允许 Site24x7 的域名、端口和 IP 地址,以确保您的服务器与 Site24x7 数据中心之间网络连接畅通。
- 确保您的服务器运行 Site24x7 支持的操作系统;请查看支持的 Windows OS 版本以及支持的 Linux 发行版及其对应版本。
监控最佳实践
遵循以下最佳实践,确保服务器环境的高效监控:
- 在安装代理时即授予自动化权限。安装完成后再启用需要重新安装代理。
- 将服务器监视器放入监视器组并分配标签,以便于管理。
- 标记服务器监视器所依赖的监视器,以消除冗余告警。
- 例如,假设有一个 Google Cloud 组织账户,其中包含安装了服务器监控代理的虚拟机 (VM)。将服务器监视器标记为依赖于 Google Cloud 组织监视器,这样当 Google Cloud 监视器终止并标记为宕机时,就不会为这些 VM 生成冗余告警。
- 配置通知配置文件并将其与您的服务器监视器关联,以确保在适当时间通知适当人员。
- 集成第三方通知渠道,以获取 Site24x7 标准告警平台之外的额外告警。
- 为服务器中运行的服务(Windows)和进程(Linux)启用监控。
- 集成 IT 自动化以启动补救操作。
- 启用资源检查,在文件、目录、端口乃至防火墙级别获取告警。
- 编辑邮件模板以自定义您收到的告警邮件。
- 创建自定义仪表板,轻松查看对您业务应用至关重要的指标。
- 标记维护活动和计划,防止产生误报告警。
- 分析监视器恢复正常时发送的根本原因分析报告,以便轻松排查中断问题。
- 将代理设置为自动升级,确保代理运行最新的安全补丁。
- 在您的反恶意软件程序中将 Site24x7 服务器监控代理标记为安全进程,使其能够不受干扰地运行。
阈值最佳实践:
Site24x7 建议为服务器监控设置以下阈值:
| 指标 | 故障告警 | 严重告警 |
|---|---|---|
| CPU 利用率 | 80 | 90 |
| 内存利用率 | 80 | 90 |
| 整体磁盘利用率 | 90 | 95 |
| 分区磁盘利用率 | 85 | 90 |
