模型蒸馏
模型蒸馏是一种模型压缩技术,它使用一个大型、高性能的模型(“教师”模型)来训练一个更小、更简单的模型(“学生”模型)。学生模型不只在真实标签上进行训练,它还被训练来模仿教师模型生成的输出概率(“软目标”)。
在现代人工智能中,最先进的模型通常非常庞大,需要大量的计算资源(高延迟、大的内存占用)。这使得在资源受限的设备上部署变得具有挑战性,例如手机、物联网传感器或实时边缘计算环境。蒸馏使组织能够在大幅减小学生模型的大小和推理时间的同时,保留教师模型的大部分复杂知识。
其核心机制涉及转移“暗知识”。教师模型不仅产生一个硬预测(例如“猫”),而是对所有可能类别产生一个概率分布(例如,90% 猫,8% 狗,2% 鸟)。这个分布包含了关于模型不确定性和类别之间关系的细微信息。然后,学生模型使用一个组合损失函数进行训练:一个组成部分最小化其预测与真实标签(硬目标)之间的差异,而第二个组成部分最小化其预测与教师模型的软目标之间的差异。