定义
检索增强聊天(RAG)是一种先进的 AI 架构,它通过集成外部权威知识库来增强大型语言模型(LLM)的能力。RAG 系统不完全依赖于它们训练时所使用的庞大、静态数据,而是在生成响应之前检索相关、最新的或专有的文档。
为什么它很重要
传统 LLM 容易出现“幻觉”——即生成事实不正确但表达得非常自信的信息。RAG 通过强制模型基于可验证的检索到的上下文来回答问题,解决了这一关键问题。对于企业而言,这意味着 AI 输出是可信赖的、与公司政策相关的,并且与最新的运营数据保持同步。
工作原理
RAG 过程涉及几个关键步骤:
- 索引(Indexing): 专有文档(PDF、数据库、内部维基)被分解成更小的块,并使用嵌入模型转换为称为“嵌入”(embeddings)的数值表示。这些嵌入被存储在专门的向量数据库中。
- 检索(Retrieval): 当用户提出问题时,查询也会被转换为一个嵌入。该查询嵌入用于搜索向量数据库,以找到与查询在语义上最接近(最相关)的文本块。
- 增强与生成(Augmentation & Generation): 然后,检索到的相关文本块被直接注入到发送给 LLM 的提示中,与原始用户问题一起。LLM 被指示仅根据所提供的上下文进行回答。
常见用例
RAG 在许多企业职能中具有变革性意义:
- 内部知识库: 允许员工使用自然语言查询复杂的内部文档(人力资源政策、工程规范)。
- 客户支持机器人: 根据产品手册和支持工单提供准确、最新的答案,而不是依赖通用的训练数据。
- 法律和合规: 从庞大的法律文档库中总结特定的条款或判例。
- 财务分析: 根据最新的季度报告或市场数据源回答问题。
主要优势
- 减少幻觉: 回答可以直接追溯到源文档,显著提高了事实准确性。
- 时效性: 系统可以纳入 LLM 原始训练集中不存在的实时或非常近期的数据。
- 领域特定性: 它使通用 LLM 能够成为高度专业化、私有的业务领域的专家。
- 可审计性: 由于检索了源文档,系统可以引用其来源,从而实现轻松验证。
挑战
- 分块策略(Chunking Strategy): 对源文档划分不当可能导致检索到不相关的上下文或关键信息被分割到不同的块中。
- 向量数据库管理: 维护、更新和优化向量索引需要专门的基础设施和专业知识。
- 延迟(Latency): 检索步骤增加了一个额外的计算层,与纯粹的预训练 LLM 调用相比,可能会略微增加响应时间。
相关概念
- 向量数据库(Vector Databases): 专门优化用于存储和搜索高维向量嵌入的数据库。
- 嵌入(Embeddings): 捕获语义含义的文本数值表示,从而实现相似性搜索。
- 微调(Fine-Tuning): 虽然相关,但微调会修改 LLM 的权重;RAG 修改的是发送给 LLM 的输入上下文。