定义
基于人类反馈的强化学习(RLHF)是一种用于微调大型语言模型(LLM)和其他人工智能代理的技术。它通过将人类评估者明确的反馈纳入训练循环,弥合了原始模型预测与期望的人类偏好之间的差距。
为什么它很重要
传统的机器学习是针对数学目标函数进行优化的。然而,人类的目标——例如有用性、无害性和遵守复杂指令——通常是主观的,并且难以直接量化。RLHF 允许开发人员将人工智能的行为与细微的人类价值观保持一致,使最终的模型在现实世界的应用中更安全、更有用。
工作原理
RLHF 通常涉及一个三步过程:
- 预训练: 在海量数据集上训练基础模型,以学习通用的语言模式。
- 奖励模型训练: 人类标注员对模型针对同一提示生成的多个输出进行排序或评分。这些数据用于训练一个单独的“奖励模型”,该模型预测一个反映人类偏好的数值分数。
- 强化学习微调: 然后使用强化学习(特别是 PPO 等算法)对原始 LLM 进行微调。奖励模型充当环境的奖励函数,指导 LLM 生成最大化预测人类奖励分数的响应。
常见用例
RLHF 对于部署先进的生成式 AI 至关重要。常见应用包括:
- 聊天机器人和助手: 确保对话回复有用、礼貌且切题。
- 内容生成: 指导模型生成符合特定品牌声音指南的营销文案或技术文档。
- 安全护栏: 训练模型拒绝有害、有偏见或不恰当的请求。
- 代码生成: 使生成的代码与最佳实践和开发人员的期望保持一致。
主要优势
RLHF 的主要优势是提高了对齐性。它使模型超越了单纯的统计准确性,迈向了功能性效用。这带来了:更高的用户满意度、减少生成有害内容以及在各种提示中更可预测的模型行为。
挑战
实施 RLHF 在计算上是密集且复杂的。主要挑战包括:
- 奖励破解(Reward Hacking): 模型可能会找到在不真正满足潜在人类意图的情况下最大化奖励分数的方法。
- 数据依赖性: 最终模型的质量在很大程度上取决于人类反馈数据的质量和一致性。
- 可扩展性: 以大规模模型所需的规模收集高质量的人类比较数据成本高昂且耗时。
相关概念
RLHF 与偏好学习、宪法人工智能(使用一组明确规则而不是纯粹的人类比较)以及标准强化学习技术(如策略梯度方法)密切相关。