Ajuste Fino Supervisado
Ajuste Fino Supervisado (SFT) es un proceso crítico en el aprendizaje automático aplicado donde un modelo grande preentrenado se entrena adicionalmente con un conjunto de datos más pequeño, de alta calidad y etiquetado, específico para una tarea objetivo. El objetivo es adaptar el conocimiento general incrustado en el modelo base para sobresalir en requisitos nicho y específicos del dominio.
Los modelos de propósito general, aunque potentes, a menudo carecen del matiz necesario para aplicaciones empresariales especializadas. SFT cierra esta brecha inyectando experiencia en el dominio directamente en los pesos del modelo. Esto da como resultado salidas que no solo son gramaticalmente correctas, sino también contextualmente precisas y alineadas con protocolos comerciales o jerga de la industria específicos.
El proceso comienza con un modelo fundacional (por ejemplo, un modelo transformador grande) que ya ha sido entrenado en conjuntos de datos masivos y diversos. En SFT, este modelo se expone luego a pares de indicaciones de entrada y salidas deseadas proporcionadas por expertos. El modelo ajusta iterativamente sus parámetros internos para minimizar la diferencia entre sus predicciones y las etiquetas verdaderas proporcionadas en el conjunto de datos de ajuste fino.
SFT se utiliza ampliamente en varias funciones empresariales:
Las principales ventajas de SFT incluyen ganancias significativas de rendimiento en tareas objetivo, una latencia de inferencia reducida en comparación con la instrucción de modelos masivos con instrucciones complejas, y una mejor adhesión a la voz de la marca o a las restricciones regulatorias.
Los desafíos clave involucran la calidad y la cantidad de los datos etiquetados. Los datos de entrenamiento mal curados o sesgados conducirán a un modelo mal ajustado. Además, los recursos computacionales necesarios para el proceso de ajuste fino en sí pueden ser sustanciales.
Este proceso está estrechamente relacionado con el Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF), que a menudo sigue a SFT para alinear aún más el comportamiento del modelo después del ajuste inicial específico de la tarea.