Aprendizaje por Refuerzo a partir de Retroalimentación Humana
El Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF, por sus siglas en inglés) es una técnica utilizada para ajustar modelos de lenguaje grandes (LLM) y otros agentes de IA. Cierra la brecha entre la predicción bruta del modelo y las preferencias humanas deseadas al incorporar retroalimentación explícita de evaluadores humanos en el bucle de entrenamiento.
El aprendizaje automático tradicional optimiza una función objetivo matemática. Sin embargo, los objetivos humanos —como la utilidad, la inofensividad y la adhesión a instrucciones complejas— a menudo son subjetivos y difíciles de cuantificar directamente. RLHF permite a los desarrolladores alinear el comportamiento de la IA con valores humanos matizados, haciendo que el modelo resultante sea más seguro y útil en aplicaciones del mundo real.
RLHF generalmente implica un proceso de tres pasos:
RLHF es fundamental para implementar IA generativa avanzada. Las aplicaciones comunes incluyen:
El principal beneficio de RLHF es la mejora de la alineación. Mueve a los modelos más allá de la mera precisión estadística hacia la utilidad funcional. Esto da como resultado: mayor satisfacción del usuario, reducción de la generación de contenido tóxico y un comportamiento del modelo más predecible en diversos prompts.
La implementación de RLHF es computacionalmente intensiva y compleja. Los desafíos clave incluyen:
RLHF está estrechamente relacionado con el Aprendizaje de Preferencias, la IA Constitucional (que utiliza un conjunto de reglas explícitas en lugar de una comparación puramente humana) y las técnicas estándar de Aprendizaje por Refuerzo, como los métodos de Gradiente de Política.