定义
嵌入式护栏是一套预定义、自动化的约束或规则,直接集成到软件系统或人工智能管道中。与生成后应用的外部过滤器不同,嵌入式护栏在过程中运行——无论是在数据摄取、模型推理还是输出生成期间——以引导系统朝着期望的、安全和合规的行为发展。
为什么重要
在现代、复杂的系统中,尤其是那些由大型语言模型(LLM)驱动的系统中,不受控制的输出会带来重大风险。护栏可以防止模型漂移、减轻幻觉、阻止生成有害或带有偏见的内容,并确保遵守监管标准(如 GDPR 或行业特定合规性)。它们将一个强大但不可预测的模型转变为一个可靠、可投入生产的资产。
工作原理
具体实现取决于系统架构,但通常涉及多个层面:
- 输入验证: 在用户提示或数据流到达核心模型之前,根据预定义策略检查它们(例如,阻止个人身份信息或禁止的关键词)。
- 过程内引导: 使用较小、专业的模型或提示工程技术来引导主模型的推理路径走向安全的结果。
- 输出过滤: 根据安全分类器或语义规则分析生成的响应,在用户看到之前捕获策略违规行为。
常见用例
- 客户服务机器人: 确保聊天机器人不会超出其范围提供医疗或法律建议。
- 内容生成: 防止生成式 AI 产生仇恨言论、错误信息或受版权保护的材料。
- 数据处理管道: 验证提取的数据是否严格符合所需的模式和业务逻辑。
主要优势
- 提高可靠性: 系统在定义的运行参数内表现出可预测性。
- 降低风险: 主动地最小化与 AI 滥用相关的法律、声誉和操作风险。
- 合规性保证: 提供了一个可审计的防御层,以防止政策违规。
挑战
- 过度约束: 设计不佳的护栏可能导致行为过于受限,使系统拒绝有效的请求(误报)。
- 规避攻击: 复杂的用户可能会尝试构建专门设计用于绕过现有护栏逻辑的提示。
- 维护开销: 随着业务规则和监管环境的变化,护栏需要持续的调整和更新。
相关概念
护栏与 AI 对齐、安全过滤器和输入/输出验证层密切相关。它们代表了理论安全原则的实际工程应用。