定义
本地模型指的是一种人工智能模型——例如小型语言模型 (SLM) 或专业视觉模型——它被设计和优化以便完全在最终用户硬件上运行,例如智能手机、笔记本电脑或边缘设备。与需要持续互联网连接和与远程服务器通信的云端模型不同,本地模型直接在设备的 CPU、GPU 或专用神经处理单元 (NPU) 上执行推理。
对商业的重要性
向本地模型的转变解决了与数据治理、延迟和运营弹性相关的关键企业需求。对于处理敏感数据(例如医疗保健、金融)的企业来说,将数据保留在设备上消除了将专有信息传输到第三方云服务器的风险。此外,消除对网络的依赖确保了即使在连接性差的环境中也能保持性能一致。
工作原理
本地模型的部署在很大程度上依赖于模型量化和剪枝技术。这些优化方法在不大幅牺牲准确性的情况下减小了模型的尺寸和计算需求。TensorFlow Lite 或 ONNX Runtime 等框架允许开发人员将大型预训练模型编译成适用于受限硬件环境的高效、轻量级版本。模型权重嵌入在应用程序本身中,从而实现自包含的运行。
常见用例
- 实时输入处理: 设备上的转录或关键词识别,实现即时反馈而无需云端延迟。
- 私有数据摘要: 在不将内容发送到外部的情况下,对本地文档或电子邮件进行摘要。
- 离线辅助: 在互联网连接不可用时提供基本的对话式 AI 或预测文本功能。
- 边缘计算机视觉: 直接在安全摄像头或物联网传感器上运行目标检测或异常检测。
主要优势
- 增强的隐私和安全性: 数据从不离开用户设备,满足严格的合规性要求。
- 降低延迟: 推理在设备上即时发生,提供近乎实时的用户体验。
- 运营独立性: 即使在网络中断期间功能也能保持完整。
- 更低的运营成本: 消除了与云推理相关的每次查询 API 成本。
实施中的挑战
- 模型性能与尺寸: 在需要高准确性的同时,平衡消费级硬件严格的内存和处理限制是一个持续的工程权衡。
- 硬件碎片化: 确保模型在各种硬件架构(例如不同移动设备上的不同芯片组)上高效运行需要严格的测试。
- 开发复杂性: 为边缘环境优化和部署模型需要专业知识,涉及模型压缩和嵌入式系统。
相关概念
- 边缘 AI: 在网络边缘运行 AI 计算的更广泛范式,本地模型是其中的一个关键实现。
- 量化: 减少模型权重精度(例如,从 32 位浮点数到 8 位整数)以减小模型大小的过程。
- 联邦学习: 一种去中心化的方法,模型在用户设备上本地训练,只有聚合的更新才发送到中央服务器,从而在训练过程中保护隐私。