基于模型的遥测
基于模型的遥测(MBT)是一种先进的监控技术,它超越了简单的阈值警报。MBT 不仅仅是报告原始指标(如 CPU 使用率或延迟),而是整合机器学习模型来理解系统在各种条件下的预期行为。它利用这些学习到的模型来预测未来状态,并在问题影响用户之前识别出表明潜在问题的偏差。
在现代、复杂和分布式系统中,传统的静态监控会失效,因为正常的运行行为是动态的。延迟的突然激增在高峰负载期间可能是正常的,但 MBT 可以将这种情况与表明服务质量下降的异常激增区分开来。它将监控从被动的“救火”转变为主动的风险管理。
MBT 涉及几个关键阶段。首先,收集历史遥测数据。其次,使用 ML 算法(如时间序列预测或深度学习模型)对这些数据进行训练,以建立“正常”的基线模型。第三,将实时传入的遥测数据输入到这个训练好的模型中。然后,模型会输出一个关于该指标应该是什么的预测。任何预测与实际观测之间的显著偏差都会触发一个智能警报。
MBT 在多个领域都具有很高的价值:
MBT 的主要优势在于其减少警报疲劳的能力。通过理解上下文,它可以过滤掉噪音,确保运营团队只收到真正代表偏离预期健康行为的事件警报。这带来了更快的平均解决时间 (MTTR) 和更高的系统正常运行时间。
实施 MBT 并非易事。它需要高质量、带标签的历史数据来进行有效的模型训练。此外,模型本身需要随着底层系统的演变(概念漂移)进行持续维护和再训练。初始设置的复杂性和计算开销也是重要的考虑因素。
MBT 与可观测性(Observability)密切相关,可观测性是更广泛的、用于通过仪器化系统来理解内部状态的实践。它还与预测性维护和 AIOps 重叠,后者是将人工智能应用于自动化 IT 操作的领域。