自成立以来,Site24x7 平台一直是监控领域的核心支柱,它从监控演进为现代 IT 运营的综合决策层。今年以可用性、智能性、治理能力和可扩展性为重点,各项增强功能旨在帮助团队清晰地观察、果断地行动,并有信心地规划未来。
Zia 是 Site24x7 的 AI 助手,它改变了团队获取数据和做出决策的方式。用户通过简单的自然语言提示,即可从 Zia 获得以下方面的洞察:
2026年,仪表板不再只是可视化展示——它们成为了运营控制中心。增强功能专注于呈现有意义的洞察、提高可读性,并加速应用程序和基础设施的故障排查。自定义仪表板的增强内容包括:
为支持以可靠性为中心的监控,平台加强了对"黄金信号"(延迟、流量、错误和饱和度)的关注。通过 APM 洞察,团队可以跟踪响应时间、吞吐量、错误率和资源利用率,尽早检测异常并在用户受到影响之前采取主动行动。
NOC 视图:采用蜂窝布局增强,提供对多个监控器的集中可见性。
仪表板已演变为完全可扩展,通过灵活的布局和批量组件管理自动适应不同设备。
随着团队和职责的扩展,访问控制变得至关重要。自定义角色确保合适的用户拥有合适级别的访问权限——不多不少。
管理员现在可以跨监控器、仪表板、标签和配置配置文件定义细粒度的查看、写入和删除权限。角色可以轻松克隆和定制,确保访问权限随组织需求同步演进。
对于 MSP(托管服务提供商),角色可应用于门户和客户级别,实现跨多个环境的安全、可扩展管理。
引入高级阈值配置后,告警变得更加智能。团队现在可以使用逻辑运算符(如 AND 和 OR)跨不同属性组合多个条件,确保告警仅在出现有意义的模式时触发。
通过告警日志实现端到端告警可见性
告警日志提供所有告警及被监控资源、触发时间、根本原因和通知投递状态的全面视图。
增强的过滤功能帮助用户快速识别错误配置、验证告警投递、通过导出日志支持审计,并利用历史上下文优化故障调试。
通过 SLO 将可靠性作为可衡量的结果
服务等级目标(SLO)帮助团队定义明确的可靠性目标,并跟踪其服务在多大程度上持续满足用户期望。
对错误预算和消耗率的实时可见性支持主动决策——帮助团队优先考虑正确的问题,减少被动救火,并在违反可靠性承诺之前采取行动。这种方法确保一致的用户体验,同时让工程团队专注于对业务最重要的事项。
例如,电商平台可以使用 APM 和网络指标定义 SLO,以跟踪结账性能和网络延迟。通过实时监控消耗率和剩余错误预算,团队可以快速识别瓶颈并采取纠正措施——确保在高峰期也能提供可靠的客户体验。
第三方集成帮助团队更快响应、自动化工作流,并保持事件数据在其 IT 生态系统中的同步。启用的关键集成包括:
监控组提供了一种集中组织和管理监控资源的方式,让团队对复杂环境有清晰的可见性。新的监控组资源报告提供了组内所有监控器(包括子组)的概览。
监控器选择功能已改进,让用户在选择具体资源之前可按类型筛选监控器,简化了设置并提高了准确性。对于大型环境,团队现在可以通过 CSV 批量导入多个监控组,按环境、位置或业务单元高效地组织监控器。此外,监控组现在同时支持卡片和列表视图,实现快速可视化摘要或紧凑的表格布局,同时保持所有组和子组之间一致的导航。
容量规划扩展至支持 AWS、Azure、GCP、Kubernetes、服务器和基于插件的集成。团队现在可以跟踪资源使用趋势,并预测整个环境的容量需求。
容量规划监控器现在可以从首页、添加监控器页面或监控组标签页直接添加,所有洞察集中在专门的容量规划仪表板中。
通过每一项创新,Site24x7 不断重申其提供可操作洞察、简化运营和可靠基础设施管理的承诺——确保组织有能力应对明天的挑战。