定义
行为护栏是一套预定义的规则、约束和安全机制,被实施在人工智能或自动化系统中,以引导其行为和输出趋向于可接受、预期和安全的状态。本质上,它们充当边界,防止系统生成有害、有偏见、不相关或不合规的内容,或执行意外操作。
为什么它很重要
在部署大型语言模型(LLM)或自主代理等先进人工智能时,出现不良结果的潜力是巨大的,包括“幻觉”、偏见放大或生成违反政策的内容。行为护栏对于风险缓解至关重要。它们确保人工智能符合组织的道德标准、法律要求和核心业务目标,从而保护用户和公司的声誉。
工作原理
护栏在人工智能流程的各个阶段运行。它们可以在生成前(输入验证、提示过滤)、生成中(实时监控令牌序列)或生成后(输出过滤和审核)实施。技术包括使用次级、较小的分类模型来根据安全标准对主模型的输出进行评分,或者采用严格的提示工程模板来限制模型的范围。
常见用例
- 内容审核: 防止大型语言模型生成仇恨言论、虚假信息或色情材料。
- 合规性执行: 确保金融或医疗人工智能代理绝不提供未经授权的建议或违反监管指南(例如 HIPAA、GDPR)。
- 范围限制: 将客户服务机器人限制在仅讨论其定义的知识库中的主题,防止话题偏离。
- 偏见缓解: 检测并标记出基于受保护特征表现出人口统计学偏见的输出。
主要优势
- 风险降低: 最大限度地减少与人工智能滥用相关的法律、声誉和操作风险。
- 一致性: 通过将输出保持在定义的参数内,确保用户体验的可预测性和可靠性。
- 建立信任: 向客户和利益相关者展示对负责任人工智能实践的承诺。
- 操作控制: 为开发人员提供了一个直接的杠杆,可以在不重新训练核心模型的情况下控制系统的操作边界。
挑战
- 过度修正(误报): 过分严格的护栏可能导致系统拒绝回答有效或良性的查询,从而导致用户体验不佳。
- 规避攻击: 复杂的用户可能会尝试精心设计提示来绕过现有的护栏。
- 复杂性: 设计全面的护栏需要深厚的领域专业知识和持续的监控。
相关概念
相关概念包括人工智能对齐(AI Alignment)、安全过滤器、输入验证和红队测试。虽然安全过滤器通常是护栏的一个组成部分,但护栏代表了这些安全措施的整体、架构性实施。