此功能将多个独立的推理请求聚合为单个批处理执行,以最大化 GPU 利用率并降低每个请求的开销。系统通过实时分析请求模式,确定最佳的批处理大小,以在内存限制和处理速度之间取得平衡。这种方法对于处理大规模数据流的企业级应用至关重要,尤其是在延迟敏感性和成本效益方面。
该系统自动监控入队推理请求,以检测负载峰值或稳定状态。
它通过评估可用的计算资源和请求到达间隔,来计算最佳的批处理大小。
请求会被合并成统一的批次,并行执行,然后分解成独立的响应进行分发。
监控实时请求到达速率以及当前的GPU内存利用率指标。
根据延迟目标和可用的计算资源,计算最佳批处理大小。
将接收到的请求聚合为统一的批次,同时保留每个请求的上下文数据。
执行并行推理任务,并将结果分解后按请求分发给客户端。
API接口接收包含元数据的请求,这些元数据指示了批处理决策所需的优先级和资源需求。
该引擎会评估队列深度和硬件容量,以确定每个批次的最佳请求数量。
统一批次的数据被分发到GPU集群,模型在集群中并行执行,然后汇总结果。