Destilación de Modelos
La Destilación de Modelos es una técnica de compresión de modelos en la que se utiliza un modelo grande y de alto rendimiento (el modelo 'Maestro') para entrenar un modelo más pequeño y simple (el modelo 'Estudiante'). En lugar de entrenar al modelo Estudiante solo con las etiquetas verdaderas, también se entrena para imitar las probabilidades de salida (los 'objetivos suaves') generadas por el modelo Maestro.
En la IA moderna, los modelos de vanguardia suelen ser masivos, lo que requiere recursos computacionales significativos (alta latencia, gran huella de memoria). Esto hace que el despliegue sea desafiante en dispositivos con recursos limitados, como teléfonos móviles, sensores IoT o entornos de computación de borde en tiempo real. La destilación permite a las organizaciones retener gran parte del conocimiento complejo del Maestro mientras reducen drásticamente el tamaño y el tiempo de inferencia del Estudiante.
El mecanismo central implica la transferencia de 'conocimiento oculto' (dark knowledge). El modelo Maestro no solo produce una predicción dura (ej. 'Gato'), sino una distribución de probabilidad sobre todas las clases posibles (ej. 90% Gato, 8% Perro, 2% Pájaro). Esta distribución contiene información matizada sobre la incertidumbre del modelo y las relaciones entre clases. Luego, el modelo Estudiante se entrena utilizando una función de pérdida combinada: un componente minimiza la diferencia entre sus predicciones y las etiquetas verdaderas (objetivos duros), y un segundo componente minimiza la diferencia entre sus predicciones y los objetivos suaves del Maestro.