监督微调
监督微调(SFT)是应用机器学习中的一个关键过程,它使用针对特定任务的小型、高质量、已标记的数据集,对预训练的大规模模型进行进一步训练。目标是将基础模型中嵌入的通用知识调整,使其擅长于细分领域的特定要求。
通用模型虽然功能强大,但往往缺乏专业企业应用所需的细微差别。SFT 通过将领域专业知识直接注入模型的权重来弥补这一差距。这使得输出不仅语法正确,而且在语境上准确,并符合特定的业务协议或行业术语。
该过程始于一个基础模型(例如,一个大型 Transformer 模型),该模型已经在大规模、多样化的数据集上进行了训练。在 SFT 中,该模型随后会接触到输入提示和期望的、由专家提供的输出的配对。模型会迭代地调整其内部参数,以最小化其预测与微调数据集中提供的真实标签之间的差异。
SFT 被广泛应用于各种业务职能中:
SFT 的主要优势包括在目标任务上实现显著的性能提升、与使用复杂指令提示大型模型相比降低推理延迟,以及提高对品牌声音或监管限制的遵守程度。
关键挑战涉及标记数据的质量和数量。精心策划不良或存在偏见的训练数据将导致微调模型效果不佳。此外,微调过程本身所需的计算资源可能非常庞大。
该过程与人类反馈强化学习(RLHF)密切相关,RLHF 通常在初始任务特定调优之后进行,以进一步调整模型的行为。