边缘推理
边缘推理是指在本地硬件设备(即“边缘”)上执行机器学习模型(即执行推理)的过程,而不是将数据发送到集中式云服务器进行处理。这会将计算从云端转移到设备本身,例如智能手机、传感器或本地网关。
转向边缘推理解决了纯云端 AI 的关键局限性。由于数据无需通过互联网传输到远程数据中心,延迟得到了极大的降低。此外,在本地处理数据可以保护用户隐私,将敏感信息保留在设备上,并减少带宽消耗,即使在连接不稳定的情况下也能使应用程序更可靠。
实施边缘推理需要针对资源受限的环境优化训练好的模型。这通常涉及使用专业框架(如 TensorFlow Lite 或 ONNX Runtime)进行模型量化、剪枝和编译。模型在云端预训练后,会部署到边缘设备上,在那里它会利用本地 CPU、GPU 或专用神经处理单元 (NPU) 来进行实时预测。
边缘推理为众多现实世界的应用提供了动力。示例包括安全摄像头上的实时物体检测、智能音箱上的语音命令处理、工业传感器上的预测性维护警报,以及手机上的即时图像过滤。自动驾驶汽车严重依赖此功能来进行即时决策。
主要优势包括低延迟、增强的数据隐私和操作弹性。通过在本地处理数据,系统对持续的高速云连接的依赖性降低,从而带来更强大、更快的用户体验。
主要挑战包括模型大小限制、电池供电设备上的功耗管理以及部署和管理各种硬件环境的复杂性。优化模型以在各种低功耗硅上高效运行是一个重大的工程难题。
该概念与 TinyML(微控制器上的机器学习)、联邦学习(模型在本地训练但共享更新)和 MLOps(用于在分布式环境中部署和维护这些模型的实践)密切相关。