定义
托管检索器是人工智能架构中的一个复杂组件,通常用于检索增强生成(RAG)系统。其主要功能是从大型外部知识库中高效地搜索、检索和选择最相关、最高质量的数据块,为大型语言模型(LLM)提供上下文,以便其生成响应。
与简单的关键词搜索不同,托管检索器利用先进的技术——通常涉及向量嵌入和语义相似性——来理解用户查询的含义,而不仅仅是匹配的单词。
为什么它很重要
LLM 输出的质量与其接收到的输入上下文的质量成正比。如果没有强大的检索器,LLM 的知识就仅限于其训练数据,这会导致“幻觉”或过时的答案。托管检索器通过将 LLM 与专有、实时或特定领域的数据相结合,弥补了这一差距。
这种能力对于企业采用至关重要,它允许公司部署能够准确谈论其内部文档、产品目录或监管指南的 LLM。
工作原理
该过程通常遵循以下步骤:
- 索引: 将外部文档分解成更小的块,并使用嵌入模型将每个块转换为称为向量嵌入的高维数值表示。
- 存储: 将这些向量以及指向原始文本块的指针存储在专门的向量数据库中。
- 查询: 当用户提出问题时,查询本身也会被转换为向量嵌入。
- 检索: 托管检索器在向量数据库中执行相似性搜索(例如,余弦相似度),以找到与查询向量在意义上最接近的数据向量。
- 增强: 将检索到的前 $K$ 个文本块连同原始提示一起传递给 LLM,指示 LLM 仅根据所提供的上下文来回答。
常见用例
- 企业问答: 允许员工查询内部维基、标准操作程序(SOP)和技术手册。
- 客户支持机器人: 根据最新的产品文档或支持工单提供准确的答案。
- 法律/合规搜索: 从庞大的法律文档库中检索特定的条款或判例。
- 个性化推荐引擎: 为定制建议获取相关的用户历史记录或产品规格。
主要优势
- 减少幻觉: 通过强制 LLM 依赖经过验证的外部数据,虚构信息的发生率显著降低。
- 领域特定性: 使 LLM 能够在狭窄、专业化的领域内执行专家级任务。
- 可更新性: 知识库可以独立于 LLM 进行更新,确保 AI 保持最新,而无需进行昂贵的模型再训练。
挑战
- 分块策略: 确定文本块的最佳大小和重叠度至关重要;太小会丢失上下文,太大则会引入噪声。
- 嵌入质量: 嵌入模型的选择直接影响检索准确性。不良的嵌入模型会产生不良的结果。
- 延迟: 检索步骤增加了整体生成管道的延迟,这对于实时应用必须加以管理。
相关概念
- 向量数据库: 嵌入驻留的专用存储层。
- 嵌入模型: 负责将文本转换为向量的模型。
- 生成式 AI: 利用 LLM 进行内容创作的总体领域。