稀疏检索
稀疏检索是一类信息检索技术,它依赖于文本的离散、显式表示,通常使用稀疏向量。与将文本映射到连续、高维向量空间的密集检索方法不同,稀疏方法使用明确存在的特征来表示文档和查询,例如词项计数或二元指示符。
在大型信息检索系统中,效率和可解释性至关重要。稀疏方法提供了计算优势,特别是在索引和检索速度方面,因为它们只存储和处理非零特征值。这使得它们对于需要精确关键词匹配或词频的庞大数据集具有高度的可扩展性。
核心机制涉及将文本映射到词汇表空间。每个文档或查询都被表示为一个向量,其中维度对应于词汇表中的术语。维度中的值通常是该术语在文档中的频率(例如,TF-IDF 分数)或二元存在指示符。然后通过计算稀疏查询向量和稀疏文档向量之间的相似性(通常使用余弦相似度或点积等技术)来进行检索。
稀疏检索被广泛应用于传统搜索引擎中,用于高精度的关键词匹配。它还被用于混合搜索架构中,在那里它与密集检索模型相结合,以捕获精确的术语匹配和语义含义。应用包括电子商务产品搜索、文档管理系统和知识库查询。
主要优势包括索引和查询过程中的高计算效率、出色的可解释性(您可以将检索到的结果追溯到特定的匹配关键词)以及在处理高度特定、术语密集的查询时的鲁棒性。
稀疏方法的一个主要局限性是它们无法固有地捕获语义相似性。如果查询使用了文档词汇表中未明确出现的同义词或相关概念,稀疏检索可能无法找到相关结果,导致召回率低于密集模型。
该技术通常与使用神经网络生成连续嵌入的密集检索进行对比。它也与 BM25 等技术密切相关,BM25 是一种高度优化的稀疏检索算法。