混合搜索
混合搜索是一种复杂的检索技术,它将传统基于关键词的搜索(如 BM25)的优势与由向量嵌入驱动的现代语义搜索相结合。它不完全依赖于精确的术语匹配或纯粹的上下文含义,而是智能地结合这两种方法,以提供更全面、更准确的结果集。
在现代数字体验中,用户的意图是复杂的。简单的关键词搜索可能会错过相关结果,如果措辞略有不同;而纯粹的语义搜索有时在特定的实体匹配方面会遇到困难。混合搜索弥合了这一差距,确保结果在上下文上相关且与用户的查询精确匹配,从而带来更高的转化率和更好的用户满意度。
该过程涉及将用户查询通过两个并行的搜索引擎运行:稀疏检索模型(用于关键词匹配)和密集检索模型(用于向量/语义匹配)。然后,系统使用融合算法,例如倒数排名融合(RRF),来智能地组合来自两个模型的排名列表。此融合过程根据结果的综合相关性得分进行加权,产生最终的、优化的排名。
混合搜索在多个业务应用中具有变革性:
实施混合搜索需要仔细调整融合算法。确定稀疏和密集组件之间的最佳权重至关重要,通常需要针对特定的业务 KPI 进行迭代的 A/B 测试。
语义搜索纯粹关注含义,而关键词搜索关注字面文本匹配。向量数据库是存储和查询混合搜索中语义组件所使用的密集向量嵌入所需的底层基础设施。