尽管 IT 基础设施比以往任何时候都更加复杂,但基础原理仍然保持不变——其中一个基础概念就是启动(booting)。虽然它看起来很简单,但对于任何参与服务器监控、管理和维护的人来说,理解启动至关重要。在这篇博客中,你将了解启动的类型、其重要性,以及启动如何帮助你管理和优化 IT 基础设施。
当你启动服务器并遇到错误时,了解启动在哪个阶段失败,有助于你有效地排查问题,而不是盲目尝试。为了帮助你更好地理解启动过程,我们来看看相关步骤。
在该测试中,当按下电源按钮时,系统电源向主板和其他组件发送信号。处理器执行存储在只读存储器(ROM)中的基本输入输出系统(BIOS)或统一可扩展固件接口(UEFI)的固件指令。
随后,BIOS 或 UEFI 执行开机自检(POST),检查并启动关键硬件组件,如 RAM、显卡和键盘。
根据系统配置,BIOS 或 UEFI 会初始化系统固件设置,例如时钟和硬件配置。你可以通过按特定按键(通常是 del 或 esc 键)进入 BIOS 或 UEFI 设置页面,以指定启动顺序、安全启动等功能。
随后,BIOS 或 UEFI 会检查配置好的启动顺序,以查找可启动设备,例如硬盘、SSD,甚至 USB 驱动器。在企业环境中,网络位置也可作为启动设备。
从可启动设备中,BIOS/UEFI 会定位主引导记录(MBR)或 GUID 分区表(GPT),其中包含分区信息并指向引导加载程序。随后,引导加载程序被加载到系统内存并执行。引导加载程序——Linux 中的 GRUB 和 Windows 中的 Boot Manager——负责将操作系统内核加载到系统内存中。
内核是操作系统的核心组件,负责管理资源和硬件交互。如果存在多个可启动的操作系统内核,引导加载程序会提供选择要启动哪个内核的选项。一旦选择了所需的操作系统内核,它就会被加载到系统内存中。
内核会初始化重要组件,如进程管理器、内存管理器、文件系统和设备驱动程序。设备驱动程序是检测到的硬件组件(如打印机和显示设备)之间的接口。
Linux 和其他基于 Unix 的操作系统:首先启动 init 或 systemd 进程。
Microsoft Windows:依次启动会话管理器 smss.exe、客户端/服务器运行时子系统 csrss.exe,然后是 winlogon.exe 进程。
随后,关键系统服务启动。守护进程(即后台进程)也会启动,用于处理网络管理、系统日志(Unix 系统为 SysLogs,Windows 为 EventLogs)以及用户身份验证。
主要有两种启动类型:冷启动和热启动。
冷启动(Cold booting)
冷启动,也称为硬启动,是指从完全断电状态开始的启动。当你按下电源按钮时,系统执行一系列硬件检查并初始化操作系统。该过程包括加载 BIOS 或 UEFI 固件,然后从存储设备定位并加载引导加载程序。引导加载程序将操作系统加载到内存中,使计算机进入可运行状态。
冷启动对于应用硬件更改、排查问题以及确保系统获得全新启动非常重要。
热启动,也称为软启动,是指在不关闭电源的情况下重新启动计算机。这通常通过在操作系统菜单中选择重新启动选项,或按系统上的重置按钮来完成(如果存在)。在热启动过程中,系统重新加载操作系统并重新初始化硬件组件,但不会执行完整的断电循环。
这种方法通常用于应用软件更新、解决轻微系统问题,或在无需完全关机的情况下刷新系统状态。热启动比冷启动更快,并有助于保持系统运行时间。
虽然启动主要是一个启动过程,但它对于维护 IT 基础设施的健康和性能至关重要。原因如下:
应用更新和补丁:许多更新,尤其是与安全和操作系统相关的更新,需要系统重新启动才能完全生效。如果没有正确启动,这些更新可能不会生效,从而使系统和服务器面临安全风险。
稳定性和性能:如果系统长时间未重新启动,性能会明显下降。这是因为过多的陈旧进程占用 CPU 资源,以及不再需要的进程持续占用内存(例如 %temp% 文件夹)。系统重启会清空内存并终止卡住的进程。
故障排查的第一步:系统重启可以解决各种系统或软件相关问题。
应用配置更改:任何重大配置更改通常只有在启动后才能完全生效。
现在我们已经了解启动对服务器的重要性,接下来看看 IT 管理员在该过程中常见的问题。
安排重启:重启通常安排在非工作时间进行,对于 24/7 运行的企业,则安排在业务低峰期。在大型 IT 环境中安排和协调重启计划可能非常复杂。
重启结果:维护准确的服务器重启日志(包括原因、时间和结果)对于合规性和审计非常重要。
及时重启:暴露在外部网络中的系统必须及时重启,以应用关键安全补丁。
我们的强大服务器监控代理提供了多项功能,帮助组织应对启动带来的复杂性。
我们的代理具备自动重启跟踪功能,可监控环境中所有服务器和虚拟机的重启情况。“Servers by Pending Reboot for Windows Update” 报告在合规和审计过程中可节省数百小时的人工工作。此外,你还可以按指定时间间隔或按需将该报告直接发送到邮箱。
不知道哪些服务器需要重启以应用补丁?我们的代理同样可以提供这些信息。“Servers by Pending Reboot” 报告还能显示哪些服务器、虚拟机或工作站需要重启。在包含数千主机的 IT 环境中手动完成此任务就像大海捞针——如果没有 Site24x7 服务器监控,这将非常耗时且消耗资源。
你还可以使用我们的事件日志和 syslog 监控功能,对重启进行历史分析。这有助于你关联可能触发重启的事件。
我们符合 GDPR、SOC 2、ISO 27001、HIPAA 等所有主流合规标准。
所有数据均按照最高安全标准进行处理。
通过报告、仪表板、告警和分析在一个平台中实现运营效率。
借助我们全面的 AI 驱动服务器监控平台,始终领先一步解决 IT 问题。注册一个根据你组织需求定制的演示,立即提升服务器管理能力。