混合索引
混合索引是一种复杂的在信息检索系统中使用的数据结构,它融合了多种索引方法的优势。它不完全依赖于传统的基于关键词的索引(如倒排索引)或纯粹的语义索引(如向量索引),而是将两者结合起来,提供更全面、更准确的搜索体验。
在复杂的现代应用中,单一的索引方法往往力不从心。关键词搜索擅长精确匹配和已知术语的高精度,而向量搜索则擅长理解语义含义和处理细微的、概念性的查询。混合索引通过提供强大的召回率(找到所有相关文档)和高精度(确保找到的文档确实相关)来解决每种方法的局限性。
其核心机制涉及创建和维护并行或集成的索引。例如,一个系统可能会维护一个标准的倒排索引用于词法查找,同时维护一个稠密向量索引用于嵌入相似性搜索。当查询到达时,系统会针对这两种索引类型执行查询,然后采用复杂的融合算法——例如倒数排名融合(RRF)——将排序后的结果智能地合并成一个单一的、优化的列表。
混合索引在多个高风险环境中至关重要:
该概念与向量数据库、倒排索引、语义搜索和检索增强生成(RAG)架构密切相关,在这些架构中,混合索引通常充当核心检索组件。