Retriever Híbrido
Un Retriever Híbrido es un componente avanzado de recuperación de información que combina dos o más metodologías de búsqueda distintas —más comúnmente la recuperación dispersa (como la búsqueda de palabras clave BM25) y la recuperación densa (búsqueda de similitud vectorial)— para generar un conjunto de resultados más completo y preciso para una consulta dada.
En los sistemas modernos de Generación Aumentada por Recuperación (RAG), la calidad de los documentos recuperados dicta directamente la calidad de la salida final de la IA. Confiar únicamente en la búsqueda vectorial a veces puede pasar por alto coincidencias exactas de palabras clave, mientras que la búsqueda de palabras clave carece de comprensión contextual. El Retriever Híbrido aborda esta limitación, asegurando tanto la relevancia semántica como la precisión léxica.
El proceso generalmente implica ejecutar la consulta del usuario a través de dos tuberías paralelas: una búsqueda tradicional de índice invertido y una búsqueda de modelo de incrustación denso. Luego, los resultados de ambas tuberías se fusionan utilizando un algoritmo sofisticado de reordenación o fusión. Este paso de fusión pondera inteligentemente las puntuaciones de ambos métodos para producir una lista de clasificación única y optimizada de documentos relevantes.