Genere un análisis de la curva precisión-exhaustividad para evaluar el rendimiento del modelo en diferentes umbrales de clasificación, enfocándose específicamente en las tasas de falsos positivos en conjuntos de datos desequilibrados.

Priority
Esta función, que requiere una gran capacidad de procesamiento, ejecuta una evaluación exhaustiva del rendimiento de un clasificador binario, representando la relación entre precisión y exhaustividad en diferentes umbrales de probabilidad. Procesa las predicciones del modelo en comparación con las etiquetas reales para calcular el Área Bajo la Curva (AUC-PR), proporcionando información crucial sobre las compensaciones entre sensibilidad y especificidad. Este análisis es esencial en escenarios donde los falsos positivos implican costos operativos significativos o donde el desequilibrio de clases distorsiona las métricas de precisión tradicionales, garantizando que los científicos de datos puedan validar la robustez del modelo antes de su implementación.
El sistema recibe matrices de predicciones sin procesar y las etiquetas correspondientes de los datos de entrenamiento para inicializar el motor de evaluación.
Un algoritmo de umbralización iterativo calcula métricas de precisión y exhaustividad a lo largo de un rango definido de valores de corte de probabilidad, generando pares de coordenadas para la curva resultante.
Las métricas calculadas se agregan en un conjunto de datos visualizable y se calculan resúmenes estadísticos, incluyendo AUC-PR y intervalos de confianza.
Obtener las predicciones de clasificación binaria y las etiquetas de referencia correspondientes del conjunto de datos de origen.
Defina el rango de umbral y la granularidad para el cálculo de precisión y exhaustividad.
Iterar a través de los umbrales para calcular los valores correspondientes de precisión y exhaustividad para cada punto.
Agregue los resultados en un objeto de curva estructurado, incluyendo el AUC-PR y los intervalos de confianza.
Extracción automatizada de vectores de predicción y etiquetas de referencia a partir del repositorio de artefactos de entrenamiento del modelo.
Cálculo en tiempo real de los valores de precisión y exhaustividad a lo largo de un espectro continuo de umbrales de clasificación.
Generación de gráficos interactivos que muestran la trayectoria de la curva, con estadísticas de rendimiento anotadas para una revisión inmediata.