Esta función previene la explosión de gradientes al limitar la norma máxima de los vectores de gradiente durante la retropropagación, garantizando una convergencia estable en el entrenamiento de redes neuronales profundas.

Priority
El recorte de gradientes (Gradient Clipping) es una técnica de regularización esencial para estabilizar el entrenamiento de modelos profundos. Al imponer un límite superior a la norma L2 de los gradientes antes de la retropropagación, se mitiga el riesgo de que los gradientes desaparezcan o exploten. Esta intervención permite que los algoritmos de optimización naveguen por paisajes de pérdida complejos sin divergir, especialmente en arquitecturas con muchas capas o altas varianzas de inicialización.
Durante la retropropagación, los gradientes ilimitados pueden provocar actualizaciones de parámetros que desestabilizan el proceso de entrenamiento.
La función calcula la norma del gradiente y la reduce si supera un umbral predefinido.
Esto garantiza tamaños de paso consistentes en todas las capas, lo que facilita una convergencia confiable hacia los pesos óptimos.
Calcule la norma L2 del vector de gradiente calculado para el lote actual.
Compare el valor calculado de la norma con el valor máximo de umbral configurado.
Si la norma supera el límite, ajuste todo el gradiente proporcionalmente para que coincida con el umbral.
Aplique los valores de gradiente recortados para actualizar los parámetros del modelo a través del optimizador.
Los ingenieros definen el umbral de recorte basándose en pruebas empíricas para equilibrar la estabilidad y la velocidad de convergencia.
La visualización de las magnitudes del gradiente ayuda a identificar las áreas propensas a la inestabilidad que requieren intervención.
Las métricas en tiempo real permiten verificar si el recorte (clipping) previene eficazmente la divergencia sin introducir nuevos artefactos.