定义
结构化输出指的是指示人工智能模型(如大型语言模型 LLM)以可预测、机器可读的格式返回其生成响应,而不是自由形式的自然语言。输出不是一个段落,而是以 JSON、XML、YAML 或特定模式的形式提供。
为什么重要
在企业应用中,非结构化文本难以被软件可靠地处理。当 LLM 提供结构化输出时,它将一个创意文本生成任务转变为一个可靠的数据提取和转换任务。这种可预测性对于下游自动化、数据库摄取和 API 消费至关重要。
工作原理
实现结构化输出通常涉及在提示中向 LLM 提供严格的模式定义(例如 JSON 模式)。然后,模型被约束在填充该模式中的字段。先进的 API 通常提供原生模式(如 JSON 模式)来强制执行这种结构,从而大大减少了后处理解析的需要。
常见用例
- 数据提取: 从客户评论或法律文件中提取特定实体(姓名、日期、价格)。
- API 集成: 确保在微服务或外部系统之间传递的数据完全符合预期的输入/输出契约。
- 工作流自动化: 将 LLM 结果直接输入到 CRM 或 ERP 系统中,无需中间解析步骤。
- 分类: 强制模型将输入分类到预定义的类别中(例如“紧急”、“账单”、“技术”)。
主要优势
- 可靠性: 最大程度地减少解析错误,从而构建更健壮的应用程序。
- 自动化效率: 能够将 AI 结果直接管道化到自动化工作流程中。
- 可扩展性: 允许系统一致地处理大量 AI 生成的数据。
- 互操作性: 确保 AI 输出可以被任何标准软件堆栈轻松消费。
挑战
- 模式复杂性: 设计过于复杂或嵌套的模式可能会使模型感到困惑或增加 token 使用量。
- 模型遵循性: 尽管现代模型擅长遵循指令,但复杂的约束有时仍可能导致轻微的格式偏差。
- 提示工程开销: 需要仔细设计提示,以在各种输入中保持结构。
相关概念
- 提示工程: 塑造输入以指导模型行为的艺术。
- 模式验证: 检查生成输出是否严格遵守定义结构的过程。
- 函数调用: 模型输出对外部函数的结构化调用的特定机制。