机器运行时
机器运行时指的是机器、软件或计算模型积极执行任务的运行期间。在人工智能和大规模系统的背景下,它专门衡量一个已训练的模型进行预测或自动化流程运行时所消耗的时间和资源。
这个指标对于了解已部署系统的实际效率至关重要,它超越了简单的训练时间,而侧重于推理和操作负载。
对于部署人工智能解决方案的企业来说,机器运行时直接关系到运营成本和用户体验。较高的运行时意味着增加的云计算费用(例如 GPU/CPU 使用量)和潜在的终端用户响应时间变慢。
优化运行时可确保已部署的模型具有成本效益,并满足关于延迟的严格服务水平协议 (SLA)。
运行时由几个因素决定,包括模型架构的复杂性、输入数据量(批次大小)、底层硬件(CPU 与 GPU)以及所使用的推理引擎的效率。
当模型运行时,它需要计算周期来处理输入特征并通过其层生成输出。运行时捕获了这个周期的总持续时间。
机器运行时在多个领域得到广泛跟踪:
优化机器运行时带来了切实的业务效益:
挑战通常源于模型大小和部署环境。大型、复杂的基础模型本质上需要更多的计算时间。此外,在异构硬件(例如,从本地 CPU 推理迁移到专用的边缘 TPU)上管理运行时增加了复杂性。
密切相关的概念包括推理延迟(单次预测所需的时间)、吞吐量(单位时间内的预测次数)和模型效率(性能与计算成本的比率)。