本地推理
本地推理是指在最终用户设备(例如智能手机、物联网传感器、本地服务器)上直接执行训练好的机器学习模型,而不是将数据发送到集中式远程云服务器进行处理的过程。
这会将计算负载从云后端转移到边缘端,从而能够在无需持续依赖网络的情况下实现实时决策。
转向本地推理解决了基于云的 AI 的关键限制。由于数据无需通过互联网传输,延迟(输入和输出之间的时间延迟)得到了显著降低。此外,在本地处理敏感数据通过将个人信息保留在外部服务器之外,增强了用户隐私。
对于需要即时反馈的应用程序——例如实时物体检测或语音命令——本地推理通常是唯一可行的选择。
本地推理的工作流程涉及几个关键阶段。首先,必须对大型云训练模型进行优化和量化。优化技术可以减小模型的尺寸和计算需求(例如,使用 TensorFlow Lite 或 ONNX Runtime),使其能够在资源受限的硬件上高效运行。
其次,将优化后的模型部署到目标设备。第三,设备捕获输入数据,在本地使用推理引擎对模型进行推理,并生成输出预测或操作。
本地推理为众多现代应用提供了动力。示例包括移动摄像头上的实时图像识别、离线运行的预测文本建议、在本地处理唤醒词的语音助手以及工业物联网传感器中的异常检测。
在医疗保健领域,它允许在不传输原始患者数据的情况下立即分析生命体征。
在本地部署 AI 的优势是巨大的。主要优势包括超低延迟、增强的数据隐私和安全性,以及提高的操作可靠性,因为即使在互联网连接间歇性或不可用时,应用程序也能正常运行。
尽管有这些优势,本地推理也存在挑战。边缘设备上的模型大小和计算能力通常是有限的,这需要复杂的模型压缩。确保跨不同硬件架构的性能一致性还需要强大的部署工具。
这个概念与边缘计算(Edge Computing)密切相关,边缘计算是更广泛的、在数据源附近处理数据的架构趋势。它还与模型量化(Model Quantization)相交,后者是用于使大型模型足够小以进行本地部署的具体技术。