该功能使站点可靠性工程师能够监控计算环节中对服务级别协议 (SLA) 的合规性。它从分布式推理服务中收集延迟、吞吐量和错误率指标,并与预定义的 SLA 阈值进行比较。通过提供服务合规性的实时可见性,该系统在发生服务降级时立即向相关团队发出警报,从而促进快速的故障响应,并维护整个 AI 基础设施生态系统的卓越运营。
该系统持续采集部署在计算节点上的 AI 模型的遥测数据,以建立正常运行行为的基线。
实时比较算法会评估当前的性能指标,并与配置的SLA目标进行对比,从而识别出可能表明服务质量下降的偏差。
自动化告警机制会在阈值超出时通知 SRE 团队,并触发预定义的修复流程,以恢复服务水平。
为每个计算集群,明确定义具体的SLA参数,包括延迟上限、可用性百分比以及容许的错误率。
配置遥测数据采集管道,用于收集从运行在计算节点上的推理服务获取的高频指标数据。
部署比较逻辑,将传入的指标与已设定的服务级别协议 (SLA) 阈值进行比对,以计算合规性状态。
激活自动化告警规则,以便在任何服务级别协议 (SLA) 参数超出范围时,触发通知和修复脚本。
一个集中式界面,实时显示所有监控计算集群的SLA合规百分比,并提供历史趋势图。
一个集成式通知系统,用于突出显示关键的SLA(服务级别协议)违规情况,并提供包含丰富上下文信息的详细信息以及建议的操作事项。
通过 RESTful 接口,为外部监控工具或工单系统提供程序化访问点,用于获取细粒度的服务级别协议 (SLA) 指标。