指令微调
指令微调是一种应用于大型预训练语言模型(LLM)的微调技术。它不是仅在海量的非结构化文本语料库上训练模型,而是使用精心策划的提示-响应对数据集来训练模型。这些对明确展示了期望的行为,例如回答问题、总结文本或遵循特定命令。
指令微调的主要目标是将基础 LLM 的通用知识与人类用户的特定、可操作的指令对齐。基础 LLM 可能知识渊博但缺乏指导;指令微调将其转变为一个能够可靠执行任务的合格助手。这种对齐对于将 LLM 从研究奇观转变为可靠的企业工具至关重要。
该过程涉及收集或合成高质量的示例,其中输入(指令/提示)与理想输出(期望的响应)配对。然后,模型使用监督微调(SFT)在该数据集上进行训练。模型学习指令格式与正确输出格式之间的映射,有效地学习了如何遵循指示,而不仅仅是存在什么信息。
指令微调支持在各种业务功能中进行实际部署:
该技术与人类反馈强化学习(RLHF)密切相关,RLHF 通常在初始监督微调阶段之后进行,以进一步完善模型的偏好对齐。