智能体护栏
智能体护栏是一套在自主人工智能智能体或大型语言模型 (LLM) 应用中实施的预定义规则、约束和安全机制。这些护栏充当一个边界,规定了智能体被允许做什么、必须产生何种类型的输出以及在各种操作条件下应如何表现。
随着人工智能智能体的自主性增强,意外或有害行为的风险也在增加。护栏对于减轻生成有偏见内容、执行未经授权的操作、泄露敏感数据或陷入无限循环等风险至关重要。它们确保智能体在既定的道德、法律和业务参数内运行。
护栏在智能体管道的多个层级上运行。这可以包括输入验证(检查用户提示是否存在恶意意图)、输出过滤(清除响应中的政策违规行为)和执行约束(限制 API 调用或外部工具的使用)。它们通常涉及次级、较小的模型或确定性逻辑检查,在主要智能体执行其提议操作之前进行审查。
实施有效的护栏是复杂的。过于严格的护栏可能导致“过度过滤”,即智能体拒绝回答有效查询,从而导致用户体验不佳。相反,薄弱的护栏使系统容易受到提示注入或越狱攻击。
该概念与 AI 对齐(AI Alignment)密切相关,后者是确保 AI 系统符合人类价值观的更广泛领域,也与提示工程(Prompt Engineering)密切相关,后者侧重于构建输入以指导模型行为。