该功能为开发者提供了一个标准化的接口,用于通过编程方式访问机器学习模型的推理和训练接口。它确保低延迟响应,同时维护企业环境中所需的严格身份验证协议。该 REST API 方便与现有遗留系统的无缝集成,使机器学习工程师能够部署模型,而无需编写自定义 SDK。通过抽象底层计算复杂性,它加速了数据科学团队的开发周期。
该系统提供统一的资源定位结构,该结构直接映射到可用的GPU实例和模型注册表。
在分配或查询任何计算资源之前,身份验证令牌将与企业身份提供商进行验证。
响应数据包包含结构化的JSON模式,这些模式反映了推理任务的具体输入参数和预期的输出格式。
向指定的推理端点发起一个 HTTP POST 请求,请求体为包含输入张量的 JSON 格式数据。
网关会验证请求签名,并检查与用户角色关联的有效计算许可。
计算资源会根据API参数中指定的延迟要求,进行动态分配。
执行模型推理逻辑,并在配置的超时时间内返回处理后的结果。
主要的入口点,根据资源标签将传入的 HTTP 请求路由到相应的模型服务端点。
用于验证访问令牌或OAuth凭证,以确保只有授权的机器学习工程师才能访问敏感的计算资源。
通过API调用,该功能可检索到特定模型的相关元数据和版本信息。