Modelo de Lenguaje Visual
Un Modelo de Lenguaje Visual (VLM) es un tipo de modelo de inteligencia artificial diseñado para procesar y comprender sin problemas la información tanto de entradas visuales (imágenes o videos) como de entradas textuales (lenguaje). A diferencia de los modelos tradicionales que se especializan en visión o lenguaje, los VLM cierran esta brecha, permitiéndoles interpretar la relación entre lo que muestra una imagen y lo que describen las palabras.
Los VLM representan un salto significativo en la capacidad de IA multimodal. Permiten que las máquinas 'vean' y 'entiendan' el mundo de una manera que refleja la percepción humana. Para las empresas, esto significa ir más allá del simple reconocimiento de imágenes hacia una comprensión contextual compleja, desbloqueando nuevos niveles de automatización y extracción de datos de medios visuales.
La función principal de un VLM implica fusionar dos modalidades distintas —visión y lenguaje— en un espacio de representación unificado. Esto se logra típicamente utilizando codificadores especializados: un codificador de visión (como una CNN o Vision Transformer) procesa la imagen en una incrustación numérica, y un codificador de lenguaje (como un Transformer) procesa el texto en otra incrustación. Estas incrustaciones se alinean y combinan, permitiendo que el modelo realice tareas que requieren razonamiento en ambos dominios.
Los conceptos relacionados incluyen el aprendizaje multimodal, los modelos de lenguaje grandes (LLM) y los sistemas de visión por computadora. Los VLM pueden verse como una integración avanzada de LLM con potentes módulos de percepción visual.