Adaptación de Bajo Rango
La Adaptación de Bajo Rango (LoRA) es una técnica de Ajuste Fino Eficiente en Parámetros (PEFT) diseñada para adaptar modelos grandes preentrenados, como los Modelos de Lenguaje Grandes (LLMs), a tareas específicas posteriores sin reentrenar todos los parámetros originales del modelo. En lugar de actualizar la matriz de pesos masiva completa, LoRA inyecta matrices de descomposición de rango pequeñas y entrenables en las capas del modelo.
El ajuste fino tradicional requiere recursos computacionales significativos, incluyendo grandes cantidades de memoria de GPU y tiempo, especialmente al tratar con modelos que contienen miles de millones de parámetros. LoRA reduce drásticamente este requisito. Al entrenar solo una pequeña fracción de matrices de bajo rango nuevas, hace que la personalización de modelos de última generación sea accesible para investigadores y empresas con hardware limitado.
En esencia, LoRA aproxima la actualización de una matriz de pesos grande, $\Delta W$, como el producto de dos matrices mucho más pequeñas, $A$ y $B$. Matemáticamente, $\Delta W \approx BA$, donde el rango ($r$) de la descomposición es significativamente menor que las dimensiones de la matriz original. Durante el entrenamiento, solo se actualizan los parámetros en las matrices $A$ y $B$, mientras que los pesos preentrenados originales y congelados ($W_0$) permanecen intactos. La salida final se calcula sumando el cambio adaptado al peso original: $W' = W_0 + BA$.
LoRA se adopta ampliamente en varias aplicaciones de IA:
Las ventajas de emplear LoRA son sustanciales para los pipelines de MLOps:
Aunque es muy efectivo, LoRA no está exento de limitaciones. La elección del rango ($r$) es un hiperparámetro crítico; establecerlo demasiado bajo puede llevar a un subajuste de la tarea, mientras que establecerlo demasiado alto disminuye las ganancias de eficiencia de parámetros. Además, aunque se adapta bien al conocimiento específico de la tarea, no altera fundamentalmente el conocimiento mundial central incrustado en los pesos congelados del modelo.
Esta técnica forma parte del campo más amplio del Ajuste Fino Eficiente en Parámetros (PEFT). Otros conceptos relacionados incluyen Prompt Tuning, Prefix Tuning y Cuantización, todos los cuales tienen como objetivo reducir el costo computacional de adaptar modelos fundacionales masivos.