请求路由 (Request Routing) 是模型部署生命周期中的关键调度机制。它确保每个推理请求都根据实时指标(如延迟、吞吐量和模型兼容性)被路由到最佳的模型实例。系统通过分析请求头和负载特征,动态选择目标服务,从而在性能优化和成本效益之间取得平衡。此过程可防止负载不均衡,并确保计算基础设施的高可用性。
路由引擎会解析传入的API数据包,以识别所需的模型版本和输入格式。
它评估当前的集群健康指标,以确定特定模型系列可用的计算资源。
一种决策算法会选择目标端点,并在转发流量之前应用负载均衡规则。
验证传入的请求是否符合已注册的模型规范。
查询模型注册表,查找与请求功能相匹配的已激活部署。
采用负载均衡算法,选择最佳目标实例。
将请求头和数据负载转发到指定的推理端点。
初始入口点,用于在路由逻辑执行之前验证请求元数据和身份验证令牌。
一个数据存储,提供可用模型的实时状态信息,包括版本标签、部署健康状况和资源配额。
分布式计算环境,用于托管模型实例,选定的模型执行实际的推理任务。