参数高效微调
参数高效微调(PEFT)是一系列旨在用比传统全量微调少得多的可训练参数来使大型预训练模型(如大型语言模型或LLM)适应下游任务的技术集合。
PEFT方法不是更新庞大模型中的每一个权重,而是只引入或修改一小部分参数,使训练过程在资源消耗上大大降低。
最先进的基础模型庞大的规模是采用的主要障碍。全量微调需要巨大的计算能力(GPU、内存)和海量数据,这使得许多组织无法使用。PEFT通过大幅减少专业化所需的内存占用和计算开销,实现了模型的民主化定制。
PEFT方法基于参数隔离的原则运行。它们冻结预训练模型的大部分权重,并将小的、可训练的模块或适配器注入到现有架构中。训练过程随后仅优化这些小的、添加的组件。
常见技术包括:
当需要快速、有针对性的适应而无需承担巨大的基础设施成本时,PEFT 是理想的选择:
采用 PEFT 的优势对于运营 AI 部署来说是巨大的:
尽管非常有效,但 PEFT 并非没有局限性。选择要适应哪些参数或如何构建适配器需要领域知识。此外,虽然效率很高,但性能提升可能不总是与全量、资源密集型微调所能达到的理论峰值完全匹配。
这个概念与迁移学习密切相关,迁移学习是利用一个任务的知识来解决另一个任务的总体思想。PEFT 是在大型神经网络的背景下实现有效迁移学习的一种特定、高度优化的方法。