Recuperación Dispersa
La Recuperación Dispersa se refiere a una clase de técnicas de recuperación de información que dependen de representaciones discretas y explícitas del texto, típicamente utilizando vectores dispersos. A diferencia de los métodos de recuperación densa, que mapean el texto en espacios vectoriales continuos y de alta dimensión, los métodos dispersos representan documentos y consultas utilizando características que están explícitamente presentes, como recuentos de términos o indicadores binarios.
En sistemas de recuperación de información a gran escala, la eficiencia y la interpretabilidad son críticas. Los métodos dispersos ofrecen ventajas computacionales, particularmente en velocidad de indexación y recuperación, porque solo almacenan y procesan valores de características no nulos. Esto los hace altamente escalables para conjuntos de datos masivos donde la coincidencia exacta de palabras clave o la frecuencia de términos es primordial.
El mecanismo central implica mapear el texto a un espacio de vocabulario. Cada documento o consulta se representa como un vector donde las dimensiones corresponden a los términos del vocabulario. El valor en una dimensión es típicamente la frecuencia (por ejemplo, la puntuación TF-IDF) o un indicador de presencia binaria de ese término en el documento. Luego, la recuperación se realiza calculando la similitud, a menudo utilizando técnicas como la similitud del coseno o el producto punto, entre el vector de consulta disperso y los vectores de documento dispersos.
La recuperación dispersa se emplea ampliamente en motores de búsqueda tradicionales para la coincidencia de palabras clave de alta precisión. También se utiliza en arquitecturas de búsqueda híbrida, donde complementa los modelos de recuperación densa para capturar tanto las coincidencias exactas de términos como el significado semántico. Las aplicaciones incluyen la búsqueda de productos en comercio electrónico, sistemas de gestión de documentos y consultas a bases de conocimiento.
Los principales beneficios incluyen una alta eficiencia computacional durante la indexación y la consulta, una excelente interpretabilidad (se puede rastrear el resultado recuperado hasta palabras clave específicas coincidentes) y robustez al tratar con consultas muy específicas y cargadas de jerga.
Una limitación importante de los métodos dispersos es su incapacidad para capturar inherentemente la similitud semántica. Si una consulta utiliza sinónimos o conceptos relacionados que no están explícitamente presentes en el vocabulario del documento, la recuperación dispersa puede no encontrar resultados relevantes, lo que lleva a una menor recuperación en comparación con los modelos densos.
Esta técnica a menudo se contrasta con la Recuperación Densa, que utiliza redes neuronales para generar incrustaciones continuas. También está estrechamente relacionada con técnicas como BM25, que es un algoritmo de recuperación dispersa altamente optimizado.