联邦运行时
联邦运行时指的是一个计算环境,在这个环境中,机器学习模型或复杂应用程序不是在单个中央服务器上执行,而是在一个由去中心化设备或服务器组成的网络上执行。它不将所有原始数据汇集到一个位置,而是管理在数据源上本地训练或运行模型的整个过程。
在现代数据密集型应用中,数据主权、隐私法规(如 GDPR)和带宽限制使得集中式数据聚合不切实际或非法。联邦运行时通过将计算带到数据所在的位置来解决这些问题,确保敏感信息保持本地化,同时仍能为全局模型改进做出贡献。
该过程通常涉及一个中央协调器,它将全局模型或训练任务分发到各种本地节点(客户端)。每个本地节点使用其私有的本地数据集来训练或运行模型。只有由此产生的模型更新或参数——而不是原始数据——才会被发送回协调器。然后,协调器聚合这些更新(例如,使用联邦平均法)来创建一个改进的全局模型,该模型随后被重新分发以进行下一轮训练。
在涉及敏感数据的场景中,联邦运行时至关重要:医疗保健(在医院数据上训练诊断模型)、移动设备学习(在不上传按键记录的情况下改进键盘预测)以及物联网部署(需要在边缘进行实时推理)。
实施联邦运行时引入了与系统异构性(节点之间不同的硬件/软件)、参数交换的通信开销以及在非独立同分布(non-IID)的本地数据下确保模型收敛等相关复杂性。
该概念与边缘计算(Edge Computing)有很大重叠,后者侧重于在靠近数据源的地方处理数据;它也与差分隐私(Differential Privacy)有重叠,后者是一种通常叠加在联邦学习之上的技术,用于增加防止数据泄露的数学保证。