定义
向量嵌入是将复杂数据(如文本、图像、音频或视频)表示为连续向量空间中的数值表示。嵌入模型不是存储原始数据,而是将数据转换为一串数字(一个向量),这些向量的接近程度反映了原始数据点的语义相似性。
为什么它很重要
传统的基于关键词的搜索在用户提出细微问题的场景中会失效。向量嵌入通过捕获数据的含义或上下文来解决这个问题。这使得人工智能系统能够理解“大型猫科动物”在语义上与“老虎”接近,即使这两个词不完全匹配。这种从词汇匹配到语义匹配的转变,是现代生成式AI和智能应用的基础。
工作原理
该过程通常涉及一个预训练的神经网络,通常是Transformer模型。该模型摄取原始数据(例如一个句子),并通过多个层进行处理。每一层都完善对输入的理解,最终输出一个固定长度的向量(例如768维)。具有相似含义的数据点在那个高维空间中会拥有在数学上彼此接近的向量,通常使用余弦相似度来衡量。
常见用例
向量嵌入为多个关键业务功能提供了动力:
- 语义搜索: 允许用户根据查询的意图而不是仅仅基于关键词来查找文档或产品。
- 推荐引擎: 将具有相似偏好的用户和项目在向量空间中分组到紧密的集群中。
- 自然语言处理 (NLP): 改进情感分析、实体识别和文本分类等任务。
- RAG(检索增强生成): 为大型语言模型(LLM)提供高度相关、特定于上下文的外部知识,以支撑其回答。
主要优势
- 上下文理解: 超越简单的词语匹配,以掌握潜在的含义。
- 可扩展性: 允许使用向量数据库高效地索引和搜索海量数据集。
- 特征丰富性: 捕获原始格式中不可见的、数据点之间复杂的关联。
挑战
- 维度: 高维向量需要专门的索引和存储(向量数据库)来进行高效查询。
- 模型依赖性: 嵌入的质量完全取决于底层嵌入模型的质量和训练情况。
- 计算成本: 为非常大的数据集生成嵌入可能计算密集。
相关概念
- 向量数据库: 专门设计用于存储和对高维向量执行快速相似性搜索的数据库。
- Transformer 架构: 通常用于创建高质量嵌入的神经网络设计。
- 余弦相似度: 用于确定两个向量之间距离或相似性的数学度量。