Incrustación vectorial
Una incrustación vectorial es una representación numérica de datos complejos —como texto, imágenes, audio o video— en un espacio vectorial continuo. En lugar de almacenar datos brutos, el modelo de incrustación convierte los datos en una lista de números (un vector), donde la proximidad de estos vectores refleja la similitud semántica de los puntos de datos originales.
La búsqueda tradicional basada en palabras clave falla cuando los usuarios hacen preguntas matizadas. Las incrustaciones vectoriales resuelven esto al capturar el significado o el contexto de los datos. Esto permite que los sistemas de IA entiendan que "gran felino" es semánticamente cercano a "tigre", incluso si las palabras no coinciden exactamente. Este cambio de coincidencia léxica a coincidencia semántica es fundamental para la IA generativa moderna y las aplicaciones inteligentes.
El proceso generalmente implica una red neuronal preentrenada, a menudo un modelo Transformer. Este modelo ingiere los datos brutos (por ejemplo, una oración) y los pasa a través de múltiples capas. Cada capa refina la comprensión de la entrada, produciendo finalmente un vector de longitud fija (por ejemplo, 768 dimensiones). Los puntos de datos con significados similares tendrán vectores que están matemáticamente cerca el uno del otro en el espacio de alta dimensión, a menudo medido mediante la similitud del coseno.
Las incrustaciones vectoriales impulsan varias funciones empresariales críticas: