请求路由

该功能会将传入的推理请求路由到最合适的已部署模型，路由依据包括输入模式、延迟要求以及计算集群中的资源可用性。

High

机器学习工程师

Man views a holographic interface projected in front of rows of server racks.

Priority

High

Execution Context

请求路由 (Request Routing) 是模型部署生命周期中的关键调度机制。它确保每个推理请求都根据实时指标（如延迟、吞吐量和模型兼容性）被路由到最佳的模型实例。系统通过分析请求头和负载特征，动态选择目标服务，从而在性能优化和成本效益之间取得平衡。此过程可防止负载不均衡，并确保计算基础设施的高可用性。

路由引擎会解析传入的API数据包，以识别所需的模型版本和输入格式。

它评估当前的集群健康指标，以确定特定模型系列可用的计算资源。

一种决策算法会选择目标端点，并在转发流量之前应用负载均衡规则。

Operating Checklist

验证传入的请求是否符合已注册的模型规范。

查询模型注册表，查找与请求功能相匹配的已激活部署。

采用负载均衡算法，选择最佳目标实例。

将请求头和数据负载转发到指定的推理端点。

Integration Surfaces

API 网关

初始入口点，用于在路由逻辑执行之前验证请求元数据和身份验证令牌。

模型注册表

一个数据存储，提供可用模型的实时状态信息，包括版本标签、部署健康状况和资源配额。

推理集群

分布式计算环境，用于托管模型实例，选定的模型执行实际的推理任务。

FAQ

Bring 请求路由 Into Your Operating Model

Connect this capability to the rest of your workflow and design the right implementation path with the team.

请求路由

Execution Context

Operating Checklist

Integration Surfaces

API 网关

模型注册表

推理集群

FAQ

该系统如何处理多种兼容型号？

如果所有目标模型都处于过载状态，会发生什么？

运行时是否可以动态修改路由规则？

调试时，请求追踪是如何实现的？

Bring 请求路由 Into Your Operating Model