批量推理
批量推理是指将机器学习模型一次性应用于大量静态输入数据集的过程,而不是像实时处理中那样顺序处理单个数据点。系统不是对单个用户请求即时响应,而是处理一个“批次”(一组数据),然后稍后一起交付结果。
对于许多业务应用来说,不要求即时、实时的响应。当主要目标是大型数据集的高吞吐量时,批量推理对于优化计算资源和降低运营成本至关重要。它将重点从低延迟服务转移到大批量处理。
工作流程始于聚合目标数据集。然后将这些数据输入到已部署的机器学习模型基础设施中。模型并行处理所有输入或以优化块进行处理,利用 GPU 并行等硬件效率。计算完成后,输出相应的预测结果,通常存储在数据库中或通过计划任务交付。
许多企业场景从批量推理中获益良多。这些包括对数百万笔交易进行夜间欺诈检测、生成月度客户流失风险评分,或对上传的媒体执行大规模图像标记和内容审核。
主要优势在于成本效益和吞吐量。通过分组请求,最大化了基础设施的利用率,与为每个数据点维护始终在线的低延迟服务端点相比,可实现更低的每次预测成本。
主要的权衡是延迟。由于数据是分块处理的,结果不是即时的。此外,管理数据管道——确保输入批次正确准备和输出可靠存储——增加了 MLOps 生命周期中的复杂性。
批量推理与在线推理(或实时推理)形成鲜明对比,后者要求预测在毫秒内返回以实现即时用户交互。当用于数据丰富化时,它与 ETL(提取、转换、加载)过程密切相关。